請用此 Handle URI 來引用此文件:
http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/80106| 標題: | 以激活函數引導與自適應實例正規化達成無監督式語音轉換 Unsupervised Voice Conversion using Activation Guidance and Adaptive Instance Normalization |
| 作者: | Yen-Hao Chen 陳延昊 |
| 指導教授: | 李宏毅(Hung-yi Lee) |
| 關鍵字: | 語音轉換,深度學習,激活函數,自適應實例正規劃, voice conversion,deep learning,activation functions,instance normalization, |
| 出版年 : | 2021 |
| 學位: | 碩士 |
| 摘要: | "近年來,深度學習在語音轉換(Voice Conversion, VC)的應用與研究發展越來越多。從一對一語者的語音轉換(One-to-one)、多對多(Many-to-many)、任意對任意(Any-to-any),以及一次性樣本(One-shot)語音轉換的研究逐漸成熟。許多語音轉換模型使用了表徵解纏的技術來分解一句語音中的語者特性以及文字內容,接著他們將文字內容,結合目標語者的語者特性來合成出轉換後的語音,達成語音轉換任務。在語音解纏的過程,我們會得到帶有語者特色的語者表徵(Speaker Embedding)及帶有文字內容特色的內容表徵 (Content Embedding)。一個常見的作法是,在內容表徵的抽取過程,加上資訊瓶頸讓語者資訊被過濾掉,但如果瓶頸加得太強,可能導致內容資訊的遺失,造成轉換出的語音品質不佳;如果瓶頸不夠強,又可能會讓語者資訊被過濾的不完全,導致轉換出的語音仍然帶有來源語者的特色,造成轉換失敗;這個現象即是語音解纏能力(Disentangling Ability)和語音重構能力(Reconstruction Ability)的取捨(Trade-off)。本論文第一個部份提出了使用單一編碼器與自適應實例正規化(Adaptive Instance Normalization, AdaIN)來達成語音轉換,有效改善了前作在語音轉換的模型記憶體應用,不但大幅減少了前作模型的記憶體使用率以及運算速度,同時改善模型的輸出品質、語者相似度。在本論文的第二部分,我們嘗試探討不同的激活函數(Activation Function)對於語音表徵的解纏效果。我們使用前面提到的單一編碼器的架構,在其內容表徵上加入不同的激活函數,觀察不同激活函數在語音解纏能力和語音重構能力的取捨中,會帶來什麼不同的影響。實驗結果展示,與基礎模型(Baseline)相比,使用單一編碼器,搭配特定的S型函數(Sigmiode Function),能同時改善讓語音解纏能力和語音重構能力;在使用者主觀測試中,我們提出的方法也在語音品質的平均意見分數(Mean Opinion Score, MOS)和語者相似度分數取得最好成績。" |
| URI: | http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/80106 |
| DOI: | 10.6342/NTU202101337 |
| 全文授權: | 同意授權(全球公開) |
| 顯示於系所單位: | 電機工程學系 |
文件中的檔案:
| 檔案 | 大小 | 格式 | |
|---|---|---|---|
| U0001-0807202103045500.pdf | 6.12 MB | Adobe PDF | 檢視/開啟 |
系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。
