Skip navigation

DSpace JSPUI

DSpace preserves and enables easy and open access to all types of digital content including text, images, moving images, mpegs and data sets

Learn More
DSpace logo
English
中文
  • Browse
    • Communities
      & Collections
    • Publication Year
    • Author
    • Title
    • Subject
    • Advisor
  • Search TDR
  • Rights Q&A
    • My Page
    • Receive email
      updates
    • Edit Profile
  1. NTU Theses and Dissertations Repository
  2. 電機資訊學院
  3. 資訊網路與多媒體研究所
Please use this identifier to cite or link to this item: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/95328
Title: 增強影片品質評估:基於CLIP和審美標準的無參考影片品質評估方法
Enhancing Video Quality Assessment: A CLIP-Based Approach for Blind Video Quality Assessment with Aesthetic Criteria
Authors: 黃薺用
Chi-Yung Huang
Advisor: 廖世偉
Shih-Wei Liao
Keyword: 影片品質評估,視覺語言模型,審美評估,
Video Quality Assessment,Vision-Language Model,Aesthetic Assessment,
Publication Year : 2024
Degree: 碩士
Abstract: 本文旨在提出一種基於 CLIP 和審美標準的無參考影片品質評估方法(NR-VQA)。隨著行動裝置和網際網路技術的快速發展,用戶生成的內容(UGC)影片已成為社交媒體平台上的常見媒介。然而,由於UGC影片的製作過程參差不齊,其品質評估面臨重大挑戰。傳統的全參考影片品質評估方法(FR-VQA)依賴於高品質原始影片,但在UGC影片中通常無法獲得這些高品質的參考影片。因此,本文旨在開發和應用無參考影片品質評估方法,通過影片本身的特徵來評估其品質。
本研究利用了 CLIP(Contrastive Language-Image Pre-training)模型來提取高層次的審美特徵,並將這些特徵與低層次感知特徵相結合,構建了一個綜合性的影片品質評估模型 CA-VQA。研究中,先使用AVA資料集和多模態大語言模型(MLLMs)創建了一個大規模的文本-圖像審美資料集,對 CLIP 模型進行預訓練,增強其提取審美特徵的能力。然後,將預訓練的 CLIP 模型整合到 VQA 模型中,並在 KoNViD-1k、YouTube UGC 和 LIVE-VQC 三個資料集上進行微調和評估。
實驗結果顯示,CA-VQA 模型在 KoNViD-1k 測試資料集上達到了 0.905 的 PLCC 和 0.909 的 SRCC,這是目前基於 CLIP 的 VQA 模型中最佳的性能。主要貢獻如下:1.本研究證明了在 IAA 資料集上預訓練的 CLIP 模型在影片審美品質評估任務中具有出色的性能。2.提出了 CA-VQA 模型,該模型採用簡單而有效的方法將 CLIP 整合到現有的 VQA 框架中,並在多個資料集上達到了最佳性能。
The rapid advancement of mobile devices and internet technology has facilitated the widespread capture and production of videos, making video quality a crucial metric on social media platforms. Evaluating the quality of User-Generated Content (UGC) videos poses significant challenges due to various distortions. To address this, No Reference Video Quality Assessment (NR-VQA) algorithms are essential.
We developed the CA-VQA model, which distinguishes between low-level perceptual factors and aesthetic factors to assess video quality. By pre-training CLIP on a large-scale text-image aesthetic dataset created using the AVA dataset and MLLMs, we enhanced its capability to extract aesthetic features. Our CA-VQA model integrates CLIP with existing VQA frameworks, achieving a PLCC of 0.905 and an SRCC of 0.909 on the KoNViD1k test dataset, the highest performance among current CLIP-based VQA models.
URI: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/95328
DOI: 10.6342/NTU202403345
Fulltext Rights: 未授權
Appears in Collections:資訊網路與多媒體研究所

Files in This Item:
File SizeFormat 
ntu-112-2.pdf
  Restricted Access
968.12 kBAdobe PDF
Show full item record


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

社群連結
聯絡資訊
10617臺北市大安區羅斯福路四段1號
No.1 Sec.4, Roosevelt Rd., Taipei, Taiwan, R.O.C. 106
Tel: (02)33662353
Email: ntuetds@ntu.edu.tw
意見箱
相關連結
館藏目錄
國內圖書館整合查詢 MetaCat
臺大學術典藏 NTU Scholars
臺大圖書館數位典藏館
本站聲明
© NTU Library All Rights Reserved