基於條件對抗式網路進行長片段音訊修補

Po-Yu Wu; 吳柏鋙

請用此 Handle URI 來引用此文件： http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/80035

標題:	基於條件對抗式網路進行長片段音訊修補 SLAIN: A Second Long Audio Inpainting with Conditional GAN.
作者:	Po-Yu Wu 吳柏鋙
指導教授:	徐宏民(Winston Hsu)
共同指導教授:	陳文進(Wen-Chin Chen)
關鍵字:	音訊修補,條件對抗式網路,聲碼器,聲學,平均主觀意見分, Audio Inpainting,cGANs,Vocoder,Acoustic,MOS,
出版年 :	2021
學位:	碩士
摘要:	我們輿論文中介紹一種實用、彈性且有效的長片段音訊修復方法。這個基於條件對抗式網路的架構稱為SLAIN，能夠恢復音訊的毀損部分，包括各類音效和樂器錄音。我們利用源自風格遷移的架構並進行精心設計的修改，使此方法可以處理未被形變的音訊頻譜圖，並根據人類的聲學特徵進行衡量。另外與最新神經聲碼器的集成使得輸出音訊質量比傳統演算法GriffinLim好上不少。除了重建函數和生成對抗函數之外，預訓練的聲碼器還提供了額外聲學函數來指導模型。透過分析實驗在兩個有挑戰性的數據集上，平均意見分數(MOS)的人工評估表明我們的方法可以處理彈性長度的毀損並在44.1 kHz（常見採樣頻率）的1.5秒長音訊樣本中能夠達到最多1秒的修補長度。生成的聲音其分數平均在MOS上最高5分中超過4分，這代表與現有的長音訊修復方法相比，我們的方法具有最佳效能。
URI:	http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/80035
DOI:	10.6342/NTU202101523
全文授權:	同意授權(全球公開)
顯示於系所單位：	資訊工程學系

文件中的檔案：

檔案	大小	格式
U0001-1607202118463800.pdf	3.4 MB	Adobe PDF	檢視/開啟

顯示文件完整紀錄

系統中的文件，除了特別指名其著作權條款之外，均受到著作權保護，並且保留所有的權利。

DSpace

機構典藏 DSpace 系統致力於保存各式數位資料（如：文字、圖片、PDF）並使其易於取用。