Skip navigation

DSpace

機構典藏 DSpace 系統致力於保存各式數位資料(如:文字、圖片、PDF)並使其易於取用。

點此認識 DSpace
DSpace logo
English
中文
  • 瀏覽論文
    • 校院系所
    • 出版年
    • 作者
    • 標題
    • 關鍵字
    • 指導教授
  • 搜尋 TDR
  • 授權 Q&A
    • 我的頁面
    • 接受 E-mail 通知
    • 編輯個人資料
  1. NTU Theses and Dissertations Repository
  2. 電機資訊學院
  3. 資訊工程學系
請用此 Handle URI 來引用此文件: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/98518
標題: 基於運動輔助表徵學習之弱監督細粒度影片異常檢測
Weakly-Supervised Fine-Grained Video Anomaly Detection via Motion-Assisted Representation Learning
作者: 鄒玲
Ling Zou
指導教授: 鄭文皇
Wen-Huang Cheng
關鍵字: 細粒度影片異常偵測,多模態學習,動作輔助表徵學習,大型語言模型,
Fine-grained video anomaly detection,Multi-modal learning,Motion-Assisted representation learning,Large language model,
出版年 : 2025
學位: 碩士
摘要: 細粒度影片異常檢測(Fine-grained Video Anomaly Detection, FG-VAD)旨在僅利用影片層級的異常存在指示和相應的語義類別標籤,對影片中的異常幀進行定位。儘管現有的大多數方法都利用了 CLIP 特徵來解決這個問題,但仍存在關鍵挑戰。在視覺方面,CLIP 特徵雖然在靜態影像上表現良好,但缺乏時序感知,常常因光照突變、物體快速移動或幀切換過快而導致誤報。在語意方面,許多方法難以充分捕捉所提供類別標籤的細微語義,導致相關異常行為的誤判。為了解決這些局限性,我們提出了一種新方法,包含兩個關鍵模組:(1)視覺時序平滑(Visual Temporal Smoothing,VTS)模組,透過引入時序一致性來減少誤報;(2)文字增強表徵模組(Text-Enhanced Representation,TER),利用大型語言模型(Large Language Model,LLM)豐富異常標籤的語義理解,從而實現更準確的幀級分類。在兩個基準資料集上的大量實驗和全面的消融研究表明,我們的方法有效性顯著,優於現有的最新方法。
Fine-grained Video Anomaly Detection (FG-VAD) aims to localize anomalous frames within a video using only video-level indications of anomaly presence and a corresponding semantic category label. While most existing methods leverage CLIP features to tackle this problem, key challenges still remain. On the visual side, CLIP features are effective for static images but lack temporal awareness, often leading to false alarms caused by sudden changes in illumination, rapid object motion, or fast frame transitions. On the semantic side, many approaches struggle to capture the nuanced meaning of the provided category label, resulting in missed detections of relevant anomalous actions. To overcome these limitations, we propose a novel method with two key components: (1) Visual Temporal Smoothing (VTS) module designed to reduce false positives by incorporating temporal consistency, and (2) Text-Enhanced Representation (TER) module that utilizes LLMs to enrich the semantic understanding of anomaly labels, enabling more accurate frame-level classification. Extensive experiments on two benchmark datasets, along with comprehensive ablation studies, demonstrate the effectiveness of our approach, showing that it outperforms existing state-of-the-art methods.
URI: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/98518
DOI: 10.6342/NTU202503387
全文授權: 同意授權(限校園內公開)
電子全文公開日期: 2025-08-15
顯示於系所單位:資訊工程學系

文件中的檔案:
檔案 大小格式 
ntu-113-2.pdf
授權僅限NTU校內IP使用(校園外請利用VPN校外連線服務)
27.79 MBAdobe PDF
顯示文件完整紀錄


系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。

社群連結
聯絡資訊
10617臺北市大安區羅斯福路四段1號
No.1 Sec.4, Roosevelt Rd., Taipei, Taiwan, R.O.C. 106
Tel: (02)33662353
Email: ntuetds@ntu.edu.tw
意見箱
相關連結
館藏目錄
國內圖書館整合查詢 MetaCat
臺大學術典藏 NTU Scholars
臺大圖書館數位典藏館
本站聲明
© NTU Library All Rights Reserved