請用此 Handle URI 來引用此文件:
http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/79698| 標題: | 使用 U-Net 及其壓縮版本來進行歌聲分離 Singing Voice Separation Using U-Net and Its Compressed Version |
| 作者: | Yu-Li Wang 王俞禮 |
| 指導教授: | 張智星(Jyh-Shing Jang) |
| 關鍵字: | 歌聲分離,U-Net,注意力模型,頻譜刪減,深度模型壓, singing voice separation,U-Net,attention based model,spectrum subtraction,network compression, |
| 出版年 : | 2021 |
| 學位: | 碩士 |
| 摘要: | 歌聲分離領域旨在將音樂中的「主唱音軌」與「伴奏音軌」分離出,可以在 time domain 或是 frequency domain 實現,後者是本研究的重點。深度學習已在現今聲音分離領域中是不可或缺的方法,本研究主要基於 Ronneberger 等人的 U-Net 架構,用於分割生物醫學影像有很好的效果,本論文基於此架構,用於訓練頻譜圖的切割。基於 ratio mask filter 與 Wiener filter 理論,改善現有的 U-Net 模型,在模型的輸出有凸波異常時,可以適時矯正(伴奏 SDR 由 13.805 提升至 14.288);以注意力機制的 attention gate 與 self-attention 改善 U-Net 模型,讓模型可以學到有規律節奏的聲音(伴奏 SDR 由 13.805 提升至 14.457);基於先前頻譜刪減(spectral subtraction)的研究,調整各頻段刪減幅度至最佳,以提升模型輸出,但本研究提出的方法與先前研究提出的刪減幅度相較起來,並無有效提升(伴奏 SDR:baseline—13.805、先前研究—14.031、本次研究—13.895);對 U-Net 進行模型剪枝(model pruning)並最大化保留效能(模型大小由 118.9MB 減少至 59.8MB,伴奏 SDR 由 12.989 降低至 12.771);調整最佳的模型量化(model quantization)參數,以不損失太多效能(模型大小由 118.9MB 減少至 4.75MB,伴奏 SDR 由 12.989 降低至 11.184)。實驗使用到公開的資料集包含:MUSDB18、DSD100、MedleyDB、iKala,非公開的資料集包含:Ke(捷奏錄音室-柯老師)。 |
| URI: | http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/79698 |
| DOI: | 10.6342/NTU202102677 |
| 全文授權: | 同意授權(全球公開) |
| 顯示於系所單位: | 資訊工程學系 |
文件中的檔案:
| 檔案 | 大小 | 格式 | |
|---|---|---|---|
| U0001-2408202115100900.pdf | 3.76 MB | Adobe PDF | 檢視/開啟 |
系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。
