Skip navigation

DSpace

機構典藏 DSpace 系統致力於保存各式數位資料(如:文字、圖片、PDF)並使其易於取用。

點此認識 DSpace
DSpace logo
English
中文
  • 瀏覽論文
    • 校院系所
    • 出版年
    • 作者
    • 標題
    • 關鍵字
    • 指導教授
  • 搜尋 TDR
  • 授權 Q&A
    • 我的頁面
    • 接受 E-mail 通知
    • 編輯個人資料
  1. NTU Theses and Dissertations Repository
  2. 電機資訊學院
  3. 資訊工程學系
請用此 Handle URI 來引用此文件: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/79698
標題: 使用 U­-Net 及其壓縮版本來進行歌聲分離
Singing Voice Separation Using U-­Net and Its Compressed Version
作者: Yu-Li Wang
王俞禮
指導教授: 張智星(Jyh-Shing Jang)
關鍵字: 歌聲分離,U-­Net,注意力模型,頻譜刪減,深度模型壓,
singing voice separation,U-Net,attention based model,spectrum subtraction,network compression,
出版年 : 2021
學位: 碩士
摘要: 歌聲分離領域旨在將音樂中的「主唱音軌」與「伴奏音軌」分離出,可以在 time domain 或是 frequency domain 實現,後者是本研究的重點。深度學習已在現今聲音分離領域中是不可或缺的方法,本研究主要基於 Ronneberger 等人的 U-Net 架構,用於分割生物醫學影像有很好的效果,本論文基於此架構,用於訓練頻譜圖的切割。基於 ratio mask filter 與 Wiener filter 理論,改善現有的 U-Net 模型,在模型的輸出有凸波異常時,可以適時矯正(伴奏 SDR 由 13.805 提升至 14.288);以注意力機制的 attention gate 與 self-attention 改善 U-Net 模型,讓模型可以學到有規律節奏的聲音(伴奏 SDR 由 13.805 提升至 14.457);基於先前頻譜刪減(spectral subtraction)的研究,調整各頻段刪減幅度至最佳,以提升模型輸出,但本研究提出的方法與先前研究提出的刪減幅度相較起來,並無有效提升(伴奏 SDR:baseline—13.805、先前研究—14.031、本次研究—13.895);對 U-Net 進行模型剪枝(model pruning)並最大化保留效能(模型大小由 118.9MB 減少至 59.8MB,伴奏 SDR 由 12.989 降低至 12.771);調整最佳的模型量化(model quantization)參數,以不損失太多效能(模型大小由 118.9MB 減少至 4.75MB,伴奏 SDR 由 12.989 降低至 11.184)。實驗使用到公開的資料集包含:MUSDB18、DSD100、MedleyDB、iKala,非公開的資料集包含:Ke(捷奏錄音室-柯老師)。
URI: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/79698
DOI: 10.6342/NTU202102677
全文授權: 同意授權(全球公開)
顯示於系所單位:資訊工程學系

文件中的檔案:
檔案 大小格式 
U0001-2408202115100900.pdf3.76 MBAdobe PDF檢視/開啟
顯示文件完整紀錄


系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。

社群連結
聯絡資訊
10617臺北市大安區羅斯福路四段1號
No.1 Sec.4, Roosevelt Rd., Taipei, Taiwan, R.O.C. 106
Tel: (02)33662353
Email: ntuetds@ntu.edu.tw
意見箱
相關連結
館藏目錄
國內圖書館整合查詢 MetaCat
臺大學術典藏 NTU Scholars
臺大圖書館數位典藏館
本站聲明
© NTU Library All Rights Reserved