Skip navigation

DSpace

機構典藏 DSpace 系統致力於保存各式數位資料(如:文字、圖片、PDF)並使其易於取用。

點此認識 DSpace
DSpace logo
English
中文
  • 瀏覽論文
    • 校院系所
    • 出版年
    • 作者
    • 標題
    • 關鍵字
    • 指導教授
  • 搜尋 TDR
  • 授權 Q&A
    • 我的頁面
    • 接受 E-mail 通知
    • 編輯個人資料
  1. NTU Theses and Dissertations Repository
  2. 電機資訊學院
  3. 電子工程學研究所
請用此 Handle URI 來引用此文件: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/99268
標題: DAVSE: 基於擴散模型的生成式影像結合語音增強方法
DAVSE: A Diffusion-Based Generative Approach for Audio-Visual Speech Enhancement
作者: 陳嘉偉
Chia-Wei Chen
指導教授: 簡韶逸
Shao-Yi Chien
關鍵字: 擴散模型,影像結合語音增強,深度學習,自然語言處理,
Audio-Visual Speech Enhancement,Diffusion Model,Deep Learning,Natural Language Processing,
出版年 : 2025
學位: 碩士
摘要: 近年來,語音視覺語音增強(Audio-Visual Speech Enhancement, AVSE)因其能夠在嘈雜環境中提升語音可懂度與品質,受到廣泛關注。儘管去噪效能已有顯著進展,AVSE 系統仍面臨兩項主要挑戰:(1)判別式方法可能引入不自然的語音失真,抵消降噪帶來的效益;(2)視覺訊號的整合往往伴隨額外的運算成本。

本論文提出一種基於擴散模型的創新方法,旨在解決上述挑戰。我們的系統採用一個基於分數的擴散模型來學習乾淨語音資料的先驗分佈。透過這一先驗知識,系統能從偏離學習分佈的嘈雜或混響輸入中推斷出乾淨語音。此外,音訊與視覺輸入透過交叉注意力模組整合至條件噪聲分數網路中,並未增加額外的計算成本。

實驗結果顯示,所提出的 DAVSE 系統在提升語音品質與減少生成性瑕疵(如語音混淆)方面,相較於僅使用音訊的語音增強系統有明顯優勢。此外,實驗也證實交叉注意力模組能有效地融合音訊與視覺資訊。
In recent years, audio-visual speech enhancement (AVSE) has attracted considerable attention for its ability to improve speech intelligibility and quality in noisy environments. Despite advances in denoising performance, two major challenges remain in AVSE systems: (1) discriminative approaches can introduce unpleasant speech distortions that may negate the benefits of noise reduction, and (2) integrating visual input often leads to increased processing costs.

This thesis presents a novel diffusion model-based approach to address these challenges. Our system utilizes a score-based diffusion model to learn the prior distribution of clean speech data. This prior knowledge enables the system to infer clean speech from noisy or reverberant input signals that deviate from the learned distribution. In addition, audio and visual inputs are integrated into the noise conditional score network through cross-attention modules, without incurring additional computational costs.

Experimental evaluations demonstrate that the proposed DAVSE system significantly improves speech quality and reduces generative artifacts, such as phonetic confusions, compared to audio-only SE systems. Furthermore, the results confirm the effectiveness of cross-attention modules in seamlessly incorporating audio and visual information.
URI: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/99268
DOI: 10.6342/NTU202502501
全文授權: 同意授權(全球公開)
電子全文公開日期: 2025-08-22
顯示於系所單位:電子工程學研究所

文件中的檔案:
檔案 大小格式 
ntu-113-2.pdf3.54 MBAdobe PDF檢視/開啟
顯示文件完整紀錄


系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。

社群連結
聯絡資訊
10617臺北市大安區羅斯福路四段1號
No.1 Sec.4, Roosevelt Rd., Taipei, Taiwan, R.O.C. 106
Tel: (02)33662353
Email: ntuetds@ntu.edu.tw
意見箱
相關連結
館藏目錄
國內圖書館整合查詢 MetaCat
臺大學術典藏 NTU Scholars
臺大圖書館數位典藏館
本站聲明
© NTU Library All Rights Reserved