請用此 Handle URI 來引用此文件:
http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/80035| 標題: | 基於條件對抗式網路進行長片段音訊修補 SLAIN: A Second Long Audio Inpainting with Conditional GAN. |
| 作者: | Po-Yu Wu 吳柏鋙 |
| 指導教授: | 徐宏民(Winston Hsu) |
| 共同指導教授: | 陳文進(Wen-Chin Chen) |
| 關鍵字: | 音訊修補,條件對抗式網路,聲碼器,聲學,平均主觀意見分, Audio Inpainting,cGANs,Vocoder,Acoustic,MOS, |
| 出版年 : | 2021 |
| 學位: | 碩士 |
| 摘要: | 我們輿論文中介紹一種實用、彈性且有效的長片段音訊修復方法。這個基於條件對抗式網路的架構稱為SLAIN,能夠恢復音訊的毀損部分,包括各類音效和樂器錄音。我們利用源自風格遷移的架構並進行精心設計的修改,使此方法可以處理未被形變的音訊頻譜圖,並根據人類的聲學特徵進行衡量。另外與最新神經聲碼器的集成使得輸出音訊質量比傳統演算法GriffinLim好上不少。除了重建函數和生成對抗函數之外,預訓練的聲碼器還提供了額外聲學函數來指導模型。透過分析實驗在兩個有挑戰性的數據集上,平均意見分數(MOS)的人工評估表明我們的方法可以處理彈性長度的毀損並在44.1 kHz(常見採樣頻率)的1.5秒長音訊樣本中能夠達到最多1秒的修補長度。生成的聲音其分數平均在MOS上最高5分中超過4分,這代表與現有的長音訊修復方法相比,我們的方法具有最佳效能。 |
| URI: | http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/80035 |
| DOI: | 10.6342/NTU202101523 |
| 全文授權: | 同意授權(全球公開) |
| 顯示於系所單位: | 資訊工程學系 |
文件中的檔案:
| 檔案 | 大小 | 格式 | |
|---|---|---|---|
| U0001-1607202118463800.pdf | 3.4 MB | Adobe PDF | 檢視/開啟 |
系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。
