Please use this identifier to cite or link to this item:
http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/80035| Title: | 基於條件對抗式網路進行長片段音訊修補 SLAIN: A Second Long Audio Inpainting with Conditional GAN. |
| Authors: | Po-Yu Wu 吳柏鋙 |
| Advisor: | 徐宏民(Winston Hsu) |
| Co-Advisor: | 陳文進(Wen-Chin Chen) |
| Keyword: | 音訊修補,條件對抗式網路,聲碼器,聲學,平均主觀意見分, Audio Inpainting,cGANs,Vocoder,Acoustic,MOS, |
| Publication Year : | 2021 |
| Degree: | 碩士 |
| Abstract: | 我們輿論文中介紹一種實用、彈性且有效的長片段音訊修復方法。這個基於條件對抗式網路的架構稱為SLAIN,能夠恢復音訊的毀損部分,包括各類音效和樂器錄音。我們利用源自風格遷移的架構並進行精心設計的修改,使此方法可以處理未被形變的音訊頻譜圖,並根據人類的聲學特徵進行衡量。另外與最新神經聲碼器的集成使得輸出音訊質量比傳統演算法GriffinLim好上不少。除了重建函數和生成對抗函數之外,預訓練的聲碼器還提供了額外聲學函數來指導模型。透過分析實驗在兩個有挑戰性的數據集上,平均意見分數(MOS)的人工評估表明我們的方法可以處理彈性長度的毀損並在44.1 kHz(常見採樣頻率)的1.5秒長音訊樣本中能夠達到最多1秒的修補長度。生成的聲音其分數平均在MOS上最高5分中超過4分,這代表與現有的長音訊修復方法相比,我們的方法具有最佳效能。 |
| URI: | http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/80035 |
| DOI: | 10.6342/NTU202101523 |
| Fulltext Rights: | 同意授權(全球公開) |
| Appears in Collections: | 資訊工程學系 |
Files in This Item:
| File | Size | Format | |
|---|---|---|---|
| U0001-1607202118463800.pdf | 3.4 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.
