Skip navigation

DSpace

機構典藏 DSpace 系統致力於保存各式數位資料(如:文字、圖片、PDF)並使其易於取用。

點此認識 DSpace
DSpace logo
English
中文
  • 瀏覽論文
    • 校院系所
    • 出版年
    • 作者
    • 標題
    • 關鍵字
    • 指導教授
  • 搜尋 TDR
  • 授權 Q&A
    • 我的頁面
    • 接受 E-mail 通知
    • 編輯個人資料
  1. NTU Theses and Dissertations Repository
  2. 電機資訊學院
  3. 電信工程學研究所
請用此 Handle URI 來引用此文件: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/98913
標題: 提示學習與選擇於弱監督視覺分析
Prompt Learning and Selection for Weakly-Supervised Visual Analysis
作者: 林棋祥
Ci-Siang Lin
指導教授: 王鈺強
Yu-Chiang Frank Wang
關鍵字: 人工智慧,深度學習,電腦視覺,圖像,影片,
artificial intelligence,deep learning,computer vision,image,video,
出版年 : 2025
學位: 博士
摘要: 當前深度學習的快速發展促使多種基礎模型被提出,用以解決視覺與語言的基本任務,而提示學習成為將基礎模型適應下游任務的一種主流微調技術。本論文旨在推進提示學習與選擇技術,以實現高級的視覺分析,包括可解釋的細粒度識別(第 1章)、圖像語義分割(第 2章)以及指向式影片分割(第 3章)。在第 1章中,我們通過學習一組視覺提示,利用視覺轉換器進行注意力機制並提取具辨識性的原型,實現了可解釋的細粒度識別。在第 2章中,我們通過從CLIP模型中學習文本背景提示來提升圖像語義分割效果。最後,在第 3章中,我們的模型能夠根據文本查詢選擇對應的時空提示,從而基於SAM實現指向式影片分割。得益於這些基礎模型所學到的豐富知識,以上任務都能以弱監督方式完成,減少了高昂的標註成本。
With the rapid development of deep learning, several foundation models have been proposed to address fundamental vision and language tasks, and prompt learning becomes a prevalent finetuning technique to adapt foundation models to downstream tasks. In this dissertation, we aim to advance prompt learning and selection techniques to achieve advanced visual analysis, including interpretable fine-grained recognition (Chapter 1), image semantic segmentation (Chapter 2), and referring video segmentation (Chapter 3). In Chapter 1, we achieve interpretable fine-grained recognition by learning a set of visual prompts to perform attention through vision transformer and derive discriminative prototypes. In Chapter 2, we enhance image semantic segmentation by learning textual background prompts from the CLIP model. Lastly, in Chapter 3, our model learns to select desired spatial-temporal prompts corresponding to the text query, addressing referring video segmentation based on SAM. Thanks to the rich knowledge learned inside these foundation models, the above tasks are able to be achieved in a weakly-supervised manner, alleviating expensive annotation costs.
URI: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/98913
DOI: 10.6342/NTU202504082
全文授權: 未授權
電子全文公開日期: N/A
顯示於系所單位:電信工程學研究所

文件中的檔案:
檔案 大小格式 
ntu-113-2.pdf
  未授權公開取用
13.28 MBAdobe PDF
顯示文件完整紀錄


系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。

社群連結
聯絡資訊
10617臺北市大安區羅斯福路四段1號
No.1 Sec.4, Roosevelt Rd., Taipei, Taiwan, R.O.C. 106
Tel: (02)33662353
Email: ntuetds@ntu.edu.tw
意見箱
相關連結
館藏目錄
國內圖書館整合查詢 MetaCat
臺大學術典藏 NTU Scholars
臺大圖書館數位典藏館
本站聲明
© NTU Library All Rights Reserved