Skip navigation

DSpace

機構典藏 DSpace 系統致力於保存各式數位資料(如:文字、圖片、PDF)並使其易於取用。

點此認識 DSpace
DSpace logo
English
中文
  • 瀏覽論文
    • 校院系所
    • 出版年
    • 作者
    • 標題
    • 關鍵字
    • 指導教授
  • 搜尋 TDR
  • 授權 Q&A
    • 我的頁面
    • 接受 E-mail 通知
    • 編輯個人資料
  1. NTU Theses and Dissertations Repository
  2. 電機資訊學院
  3. 資訊工程學系
請用此 Handle URI 來引用此文件: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/79437
標題: 使用二維位置編碼改善以時頻譜為基礎的聲源分離模型
Pos-LaSAFT: Improving Spectrogram-based Source Separation Model by Leveraging 2-D Positional Encoding
作者: Chu-Ying Chan
詹居穎
指導教授: 許永真(Yung-Jen Hsu)
關鍵字: 音樂聲部分離,位置編碼,
music source separation,positional encoding,
出版年 : 2021
學位: 碩士
摘要: 音樂聲部分離 (music source separation) 的目的是將一個由多個聲源 (source) 混合而成的混合音訊,分離回當初混合該音訊的多個聲源。在出現深度學習後,音樂聲部分離 (music source separation) 領域中的模型幾乎都使用了深度學習,有些模型會將音訊透過時頻轉換 (time-frequency transformation) 以時頻譜 (spectrogram) 的形式下進行分離,並且會把它當作是圖像來進行處理,但是時頻譜與處理一般圖像不同的點是,絕對位置的資訊對於時頻譜來說意義非凡,其每一個點的絕對位置都對應其時間點以及頻率,對於使用卷積 (convolution) 的模型,若是堆疊的卷積不夠深,會使模型無法掌握完整的位置資訊。所以此篇論文,提出了 Pos-LaSAFT,其為 LsSAFT 的變形,藉由使用二維位置編碼協助模型可以掌握絕對位置的資訊,來提升模型的表現。此篇論文的結果都使用 SDR 這個度量 (metric) 做評定,且皆使用 MUSDB18 當做資料集,在同樣的實驗參數下, Pos-LaSAFT 的 SDR 平均分數比原始版的 LaSAFT 提高了 0.28 dB,其中在低音吉他這個分部 (stems) 中改善最多,進步了 0.56 dB。
URI: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/79437
DOI: 10.6342/NTU202103763
全文授權: 同意授權(全球公開)
顯示於系所單位:資訊工程學系

文件中的檔案:
檔案 大小格式 
U0001-1510202117015400.pdf5.44 MBAdobe PDF檢視/開啟
顯示文件完整紀錄


系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。

社群連結
聯絡資訊
10617臺北市大安區羅斯福路四段1號
No.1 Sec.4, Roosevelt Rd., Taipei, Taiwan, R.O.C. 106
Tel: (02)33662353
Email: ntuetds@ntu.edu.tw
意見箱
相關連結
館藏目錄
國內圖書館整合查詢 MetaCat
臺大學術典藏 NTU Scholars
臺大圖書館數位典藏館
本站聲明
© NTU Library All Rights Reserved