Skip navigation

DSpace

機構典藏 DSpace 系統致力於保存各式數位資料(如:文字、圖片、PDF)並使其易於取用。

點此認識 DSpace
DSpace logo
English
中文
  • 瀏覽論文
    • 校院系所
    • 出版年
    • 作者
    • 標題
    • 關鍵字
    • 指導教授
  • 搜尋 TDR
  • 授權 Q&A
    • 我的頁面
    • 接受 E-mail 通知
    • 編輯個人資料
  1. NTU Theses and Dissertations Repository
  2. 電機資訊學院
  3. 資訊工程學系
請用此 Handle URI 來引用此文件: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/97279
標題: 分析手機用戶關鍵操作以及自動化手機測試資料集生成
Video Action Localization: A Comprehensive Approach to Mobile Critical User Journey and Automated Mobile Testing Dataset Generation
作者: 張瀷鏵
I-Hua Chang
指導教授: 廖世偉
Shih-wei Liao
關鍵字: GUI測試,視覺語言模型,影片動作定位,
Mobile GUI Testing,Vision-Language Model,Video Action Localization,
出版年 : 2024
學位: 碩士
摘要: 在行動裝置 GUI 測試中,現有的開源數據集往往由於數據過時和變換有限,缺乏進行有效測試所需的精確性和相關性。本文介紹了一種雙重媒介視覺語言模型(VLM)系統,用於生成能準確捕捉行動應用互動的高品質數據集。通過結合 Transformer 和 UNet 模型,我們的方法使用 Android 模擬器自動化數據集收集過程,結果在精確定位動作和螢幕變換數據方面表現出色。

我們對所提出的自動生成數據集進行了評估,發現其在標記精確性方面超過了 RICO 數據集(85% 對 83%),並且變換幀變異數數顯著較低(0.73 對 11.8)。我們結合了 3D UNet 和 Transformer 架構的視覺文字模型,展現出較其他配置更高的準確性(73%),凸顯了整合文字和視覺信息對於行動 GUI 測試的重要性。

這項研究強調了針對現代應用介面開發量身定制的數據集的重要性,並展示了自動化數據集生成以應對行動應用迅速變化的景觀的需求。所提出的視覺文字模型在處理行動 GUI 測試的複雜性方面被證明是有效的,顯示了結合視覺和文字洞察以進行準確分析的潛力。
In mobile GUI testing, existing open-source datasets often lack the accuracy and relevance needed for effective testing due to outdated data and limited transformations. This paper introduces a novel dual-agent Vision-Language Model (VLM) system to generate a high-quality dataset that accurately captures mobile app interactions. On the other hand, by leveraging a combination of transformer and U-Net models, our approach surpasses previous work in precisely locating actions on mobile phone screen recordings.

We evaluated the proposed auto-generated dataset and found that it surpassed the RICO dataset animation class in labeling accuracy (85\\\\\\\\% vs. 83\\\\\\\\%) and achieved a significantly lower variance transformation frame count (0.73 vs. 11.8). Our vision-textual model, which combined 3D U-Net and transformer architectures, exhibited superior accuracy (73\\\\\\\\%) over other configurations, highlighting the importance of integrating both textual and visual information for mobile GUI testing.

This research underscores the importance of developing datasets tailored to modern app interfaces and demonstrates the need for automated dataset generation to address the rapidly changing landscape of mobile applications. The proposed vision-textual model proved effective in handling the complexity of mobile GUI testing, showing the potential of combining visual and textual insights for accurate analysis.
URI: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/97279
DOI: 10.6342/NTU202401443
全文授權: 未授權
電子全文公開日期: N/A
顯示於系所單位:資訊工程學系

文件中的檔案:
檔案 大小格式 
ntu-113-2.pdf
  未授權公開取用
4.39 MBAdobe PDF
顯示文件完整紀錄


系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。

社群連結
聯絡資訊
10617臺北市大安區羅斯福路四段1號
No.1 Sec.4, Roosevelt Rd., Taipei, Taiwan, R.O.C. 106
Tel: (02)33662353
Email: ntuetds@ntu.edu.tw
意見箱
相關連結
館藏目錄
國內圖書館整合查詢 MetaCat
臺大學術典藏 NTU Scholars
臺大圖書館數位典藏館
本站聲明
© NTU Library All Rights Reserved