基於複數神經網路以及生成對抗網路的跨領域語音加強模型

Yan-Ci Su; 蘇彥齊

請用此 Handle URI 來引用此文件： http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/81254

標題:	基於複數神經網路以及生成對抗網路的跨領域語音加強模型 Cross-domain Speech Enhancement Model based on Complex Neural Network and Generative Adversarial Network
作者:	Yan-Ci Su 蘇彥齊
指導教授:	雷欽隆(Chin-Laung Lei)
關鍵字:	語音增強,深度學習,複數神經網路,對抗式生成網路,時域及頻域, Speech enhancement,Deep learning,Complex neural network,Generative Adversarial Network,Time and TimeFrequency Domain,
出版年 :	2021
學位:	碩士
摘要:	早期的語音增強模型有幾個缺點，第一個是對噪音較大或是不穩定的訊號效果不好，第二個是無法準確地消除頻率較高的噪音，因此有人提出了使用深度學習的模型來解決這些問題。深度學習模型的輸入大部分使用的是帶有噪音訊號的聲音轉換而來的頻譜圖，少部分會直接使用原始的波形圖，頻譜圖可以幫助我們的模型更容易地學到訊號中帶有的資訊，但是深度學習的模型沒有辦法處理轉換成頻譜圖後產生的虛數，因此許多方法只針對實數的部分或者是訊號強度的部分去做處理。後來，複數神經網路的出現幫助我們解決了這個問題，因此在我們的方法中，我們也採用了複數神經網路的架構，並且加入了U-Net架構。另外，模型輸出的訊號和乾淨的聲音訊號的距離並不能準確的表示聲音品質的好壞，因此我們將訊號品質的分數當作我們訓練模型的目標，並採用了 metricGAN 的的技術，透過另外訓練一個判別器模型，讓我們的模型能夠產生品質更好的聲音。我們的方法有幾個優點，第一，我們採用了複數神經網路的架構，讓機器能夠看到完整的頻譜圖資訊，第二，我們同時使用了頻譜圖以及波形圖的資訊，讓機器能夠獲得更多關於訊號的內容，第三，我們的模型藉由將聲音的品質分數當作訓練目標，讓模型產生的聲音能夠獲得更高的品質分數。我們的實驗使用了VoiceBank以及DEMAND資料集作為訓練集以及測試集，其中訓練集包含了28個說話者以及共40種不同的噪音條件，並且使用了各種測試分數作為評斷標準，而我們的模型在這些分數上獲得了比其他方法更好的成績。
URI:	http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/81254
DOI:	10.6342/NTU202101811
全文授權:	同意授權(限校園內公開)
顯示於系所單位：	電機工程學系

文件中的檔案：

檔案	大小	格式
U0001-2707202117040300.pdf 授權僅限NTU校內IP使用（校園外請利用VPN校外連線服務）	3.57 MB	Adobe PDF

顯示文件完整紀錄

系統中的文件，除了特別指名其著作權條款之外，均受到著作權保護，並且保留所有的權利。

DSpace

機構典藏 DSpace 系統致力於保存各式數位資料（如：文字、圖片、PDF）並使其易於取用。