Skip navigation

DSpace

機構典藏 DSpace 系統致力於保存各式數位資料(如:文字、圖片、PDF)並使其易於取用。

點此認識 DSpace
DSpace logo
English
中文
  • 瀏覽論文
    • 校院系所
    • 出版年
    • 作者
    • 標題
    • 關鍵字
    • 指導教授
  • 搜尋 TDR
  • 授權 Q&A
    • 我的頁面
    • 接受 E-mail 通知
    • 編輯個人資料
  1. NTU Theses and Dissertations Repository
  2. 電機資訊學院
  3. 資訊工程學系
請用此 Handle URI 來引用此文件: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/98186
標題: 運用行動思維鏈及多模態模型進行可擴展自動化行動裝置使用者介面資料集生成及使用者操作定位
Scalable Automated Mobile UI Dataset Generation Using Chain-of-Action-Thought Framework and Multimodal Models for User Action Localization
作者: 高子維
Tzu-Wei Kao
指導教授: 廖世偉
Shih-Wei Liao
關鍵字: 行動裝置圖像使用者介面測試,行動裝置使用者介面資料集,使用者操作定位,行動思維鏈,視覺語言模型,
Mobile GUI testing,Mobile UI Dataset,User Action localization,Chain-of-Action-Thought,Vision-Language Model,
出版年 : 2025
學位: 碩士
摘要: 本研究提出一個以「行動思維鏈」(Chain-of-Action-Thought, CoAT)為核心的可擴展行動裝置使用者介面資料集自動化生成流程。該流程透過視覺語言模型模擬真實使用者互動,涵蓋畫面描述、行為推理、動作執行與結果驗證,無需人工參與即可產生高品質的互動資料集。資料集包含原始截圖、標註之介面元件、動作動畫以及詳細的語意推理紀錄。
為驗證資料集之有效性,我們提出一個多模態模型,結合 3D U-Net 用於視覺訊號處理,與 BERT 編碼器處理經由 OCR 擷取的文字資訊。我們以 AITW 與本研究資料集進行多組訓練與測試組合實驗。結果顯示,本資料集能提升動作定位準確性,尤其對滑動操作具優勢。本研究為行動裝置使用者介面測試之中的使用者操作定位提供一套完整解方。
This work presents a fully automated pipeline for scalable mobile UI dataset generation, driven by a Chain-of-Action-Thought (CoAT) framework. The pipeline simulates realistic user interactions using a vision-language model to describe screen content, reason through actions, execute commands, and validate outcomes—without human intervention. The resulting dataset includes raw screenshots, annotated UI elements, action animations,and detailed semantic reasoning traces.
To demonstrate the effectiveness of the generated dataset, we introduce a multimodal model that combines 3D U-Net for visual understanding and a BERT encoder for processing textual information extracted via OCR. We evaluate this model across different training and testing configurations, using both AITW and our dataset. Results show that our dataset improves action localization performance, particularly for swipe-based interactions. This work contributes a robust solution for user action localization in mobile GUI testing.
URI: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/98186
DOI: 10.6342/NTU202502184
全文授權: 未授權
電子全文公開日期: N/A
顯示於系所單位:資訊工程學系

文件中的檔案:
檔案 大小格式 
ntu-113-2.pdf
  未授權公開取用
1.94 MBAdobe PDF
顯示文件完整紀錄


系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。

社群連結
聯絡資訊
10617臺北市大安區羅斯福路四段1號
No.1 Sec.4, Roosevelt Rd., Taipei, Taiwan, R.O.C. 106
Tel: (02)33662353
Email: ntuetds@ntu.edu.tw
意見箱
相關連結
館藏目錄
國內圖書館整合查詢 MetaCat
臺大學術典藏 NTU Scholars
臺大圖書館數位典藏館
本站聲明
© NTU Library All Rights Reserved