Skip navigation

DSpace

機構典藏 DSpace 系統致力於保存各式數位資料(如:文字、圖片、PDF)並使其易於取用。

點此認識 DSpace
DSpace logo
English
中文
  • 瀏覽論文
    • 校院系所
    • 出版年
    • 作者
    • 標題
    • 關鍵字
    • 指導教授
  • 搜尋 TDR
  • 授權 Q&A
    • 我的頁面
    • 接受 E-mail 通知
    • 編輯個人資料
  1. NTU Theses and Dissertations Repository
  2. 電機資訊學院
  3. 資訊工程學系
請用此 Handle URI 來引用此文件: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/97793
標題: 優化手機影片摘要生成:運用生成式圖片轉文字模型與AITW資料集
Enhancing Mobile Video Captioning: Utilizing Generative Image-to-text Transformers with AITW Dataset
作者: 蔡博揚
Po-Yang Tsai
指導教授: 廖世偉
Shih-Wei Liao
關鍵字: 影片摘要生成,Android in the Wild,視覺語言模型,機器學習,微調,
Video Captioning,Android in the Wild,Vision-Language Model,Machine Learning,Fine-Tuning,
出版年 : 2024
學位: 碩士
摘要: 我們提供一個有效的方法,使用生成式圖片和文字的轉換器模型來為手機影片生成摘要,並訓練在Android in the Wild資料集。目前手機錄影都是由人工檢視做摘要,我們使用機器學習直接將視覺的資訊轉成文字。本論文使用的方法包含資料的前處理及三種微調策略來改善模型,包含雙學習率、增加時間序詞嵌入,以及可變輸入圖片解析度。實驗結果顯示微調方法明顯的提高了生成摘要的準確度,並且凸顯視覺語言模型,在手機應用程式中自動化問題報告過程的潛力,大量的減少人力與時間的同時提供高準確度的摘要。
This paper introduces a novel approach for mobile video captioning using the Generative Image-to-text Transformer model, with the Android in the Wild dataset. The process of summarizing mobile records is traditionally reliant on manual review. We address this challenge by employing machine learning techniques to convert visual information directly into texts. The methodology includes data preprocessing and three fine-tuning strategies, such as dual learning rates, increased temporal embeddings, and variable input image resolutions, to enhance the model's performance. Comprehensive experimentation shows that these fine-tuning techniques significantly improve the accuracy of generated captions. The results highlight the potential of vision-language models to automate the problem-reporting process in mobile applications, significantly reducing time and labor while ensuring high accuracy.
URI: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/97793
DOI: 10.6342/NTU202401151
全文授權: 同意授權(全球公開)
電子全文公開日期: 2025-07-17
顯示於系所單位:資訊工程學系

文件中的檔案:
檔案 大小格式 
ntu-113-2.pdf3.22 MBAdobe PDF檢視/開啟
顯示文件完整紀錄


系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。

社群連結
聯絡資訊
10617臺北市大安區羅斯福路四段1號
No.1 Sec.4, Roosevelt Rd., Taipei, Taiwan, R.O.C. 106
Tel: (02)33662353
Email: ntuetds@ntu.edu.tw
意見箱
相關連結
館藏目錄
國內圖書館整合查詢 MetaCat
臺大學術典藏 NTU Scholars
臺大圖書館數位典藏館
本站聲明
© NTU Library All Rights Reserved