Skip navigation

DSpace

機構典藏 DSpace 系統致力於保存各式數位資料(如:文字、圖片、PDF)並使其易於取用。

點此認識 DSpace
DSpace logo
English
中文
  • 瀏覽論文
    • 校院系所
    • 出版年
    • 作者
    • 標題
    • 關鍵字
    • 指導教授
  • 搜尋 TDR
  • 授權 Q&A
    • 我的頁面
    • 接受 E-mail 通知
    • 編輯個人資料
  1. NTU Theses and Dissertations Repository
  2. 電機資訊學院
  3. 資訊網路與多媒體研究所
請用此 Handle URI 來引用此文件: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/95328
標題: 增強影片品質評估:基於CLIP和審美標準的無參考影片品質評估方法
Enhancing Video Quality Assessment: A CLIP-Based Approach for Blind Video Quality Assessment with Aesthetic Criteria
作者: 黃薺用
Chi-Yung Huang
指導教授: 廖世偉
Shih-Wei Liao
關鍵字: 影片品質評估,視覺語言模型,審美評估,
Video Quality Assessment,Vision-Language Model,Aesthetic Assessment,
出版年 : 2024
學位: 碩士
摘要: 本文旨在提出一種基於 CLIP 和審美標準的無參考影片品質評估方法(NR-VQA)。隨著行動裝置和網際網路技術的快速發展,用戶生成的內容(UGC)影片已成為社交媒體平台上的常見媒介。然而,由於UGC影片的製作過程參差不齊,其品質評估面臨重大挑戰。傳統的全參考影片品質評估方法(FR-VQA)依賴於高品質原始影片,但在UGC影片中通常無法獲得這些高品質的參考影片。因此,本文旨在開發和應用無參考影片品質評估方法,通過影片本身的特徵來評估其品質。
本研究利用了 CLIP(Contrastive Language-Image Pre-training)模型來提取高層次的審美特徵,並將這些特徵與低層次感知特徵相結合,構建了一個綜合性的影片品質評估模型 CA-VQA。研究中,先使用AVA資料集和多模態大語言模型(MLLMs)創建了一個大規模的文本-圖像審美資料集,對 CLIP 模型進行預訓練,增強其提取審美特徵的能力。然後,將預訓練的 CLIP 模型整合到 VQA 模型中,並在 KoNViD-1k、YouTube UGC 和 LIVE-VQC 三個資料集上進行微調和評估。
實驗結果顯示,CA-VQA 模型在 KoNViD-1k 測試資料集上達到了 0.905 的 PLCC 和 0.909 的 SRCC,這是目前基於 CLIP 的 VQA 模型中最佳的性能。主要貢獻如下:1.本研究證明了在 IAA 資料集上預訓練的 CLIP 模型在影片審美品質評估任務中具有出色的性能。2.提出了 CA-VQA 模型,該模型採用簡單而有效的方法將 CLIP 整合到現有的 VQA 框架中,並在多個資料集上達到了最佳性能。
The rapid advancement of mobile devices and internet technology has facilitated the widespread capture and production of videos, making video quality a crucial metric on social media platforms. Evaluating the quality of User-Generated Content (UGC) videos poses significant challenges due to various distortions. To address this, No Reference Video Quality Assessment (NR-VQA) algorithms are essential.
We developed the CA-VQA model, which distinguishes between low-level perceptual factors and aesthetic factors to assess video quality. By pre-training CLIP on a large-scale text-image aesthetic dataset created using the AVA dataset and MLLMs, we enhanced its capability to extract aesthetic features. Our CA-VQA model integrates CLIP with existing VQA frameworks, achieving a PLCC of 0.905 and an SRCC of 0.909 on the KoNViD1k test dataset, the highest performance among current CLIP-based VQA models.
URI: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/95328
DOI: 10.6342/NTU202403345
全文授權: 未授權
顯示於系所單位:資訊網路與多媒體研究所

文件中的檔案:
檔案 大小格式 
ntu-112-2.pdf
  未授權公開取用
968.12 kBAdobe PDF
顯示文件完整紀錄


系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。

社群連結
聯絡資訊
10617臺北市大安區羅斯福路四段1號
No.1 Sec.4, Roosevelt Rd., Taipei, Taiwan, R.O.C. 106
Tel: (02)33662353
Email: ntuetds@ntu.edu.tw
意見箱
相關連結
館藏目錄
國內圖書館整合查詢 MetaCat
臺大學術典藏 NTU Scholars
臺大圖書館數位典藏館
本站聲明
© NTU Library All Rights Reserved