請用此 Handle URI 來引用此文件:
http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/79437| 標題: | 使用二維位置編碼改善以時頻譜為基礎的聲源分離模型 Pos-LaSAFT: Improving Spectrogram-based Source Separation Model by Leveraging 2-D Positional Encoding |
| 作者: | Chu-Ying Chan 詹居穎 |
| 指導教授: | 許永真(Yung-Jen Hsu) |
| 關鍵字: | 音樂聲部分離,位置編碼, music source separation,positional encoding, |
| 出版年 : | 2021 |
| 學位: | 碩士 |
| 摘要: | 音樂聲部分離 (music source separation) 的目的是將一個由多個聲源 (source) 混合而成的混合音訊,分離回當初混合該音訊的多個聲源。在出現深度學習後,音樂聲部分離 (music source separation) 領域中的模型幾乎都使用了深度學習,有些模型會將音訊透過時頻轉換 (time-frequency transformation) 以時頻譜 (spectrogram) 的形式下進行分離,並且會把它當作是圖像來進行處理,但是時頻譜與處理一般圖像不同的點是,絕對位置的資訊對於時頻譜來說意義非凡,其每一個點的絕對位置都對應其時間點以及頻率,對於使用卷積 (convolution) 的模型,若是堆疊的卷積不夠深,會使模型無法掌握完整的位置資訊。所以此篇論文,提出了 Pos-LaSAFT,其為 LsSAFT 的變形,藉由使用二維位置編碼協助模型可以掌握絕對位置的資訊,來提升模型的表現。此篇論文的結果都使用 SDR 這個度量 (metric) 做評定,且皆使用 MUSDB18 當做資料集,在同樣的實驗參數下, Pos-LaSAFT 的 SDR 平均分數比原始版的 LaSAFT 提高了 0.28 dB,其中在低音吉他這個分部 (stems) 中改善最多,進步了 0.56 dB。 |
| URI: | http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/79437 |
| DOI: | 10.6342/NTU202103763 |
| 全文授權: | 同意授權(全球公開) |
| 顯示於系所單位: | 資訊工程學系 |
文件中的檔案:
| 檔案 | 大小 | 格式 | |
|---|---|---|---|
| U0001-1510202117015400.pdf | 5.44 MB | Adobe PDF | 檢視/開啟 |
系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。
