端對端基於範例的任意對任意語音轉換

Yi-Sheng Lin; 林義聖

請用此 Handle URI 來引用此文件： http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/80140

完整後設資料紀錄

DC 欄位	值	語言
dc.contributor.advisor	李琳山
dc.contributor.author	Yi-Sheng Lin	en
dc.contributor.author	林義聖	zh_TW
dc.date.accessioned	2022-11-23T09:28:20Z	-
dc.date.available	2021-07-20
dc.date.available	2022-11-23T09:28:20Z	-
dc.date.copyright	2021-07-20
dc.date.issued	2021
dc.date.submitted	2021-07-05
dc.identifier.uri	http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/80140	-
dc.description.abstract	語音轉換是將一位語者所說出的語音轉換成聽起來像由另一位語者說出，但語音的語言內容維持不變。本論文專注於任意對任意語音轉換，亦即模型能將任意一位語者的聲音轉換成任意另一位語者的聲音，即使這兩位語者的語音都不存在於訓練資料集中。透過提供兩位語者各一段語音給任意對任意語音轉換模型，第一位語者語音的語言內容以及第二位語者語音中的語者相關資訊被提取出來，結合在一起後合成出轉換過後的語音；這是最具一般性的語音轉換設定，卻也最具挑戰性。使合成語音的語言內容清晰自然且與第一段語音完全相同，但聽起來非常像是由第二位語者所說出，便是任意對任意語音轉換的終極目標。本論文透過文獻回顧，首先指出過去將語者表徵用於任意對任意語音轉換模型的潛在問題；接著討論自監督式學習所得語音表徵之潛力，以及其取代過去常用於語音轉換的其他語音表徵之可行性。最後，本論文提出一個全新的任意對任意語音轉換模型，啟發自基於範例的語音轉換，且模型乃基於類神經網路，因而能端到端學習並執行語音轉換；同時，新模型中利用專注機制解決過去使用語者表徵的各種方法之不足，也利用自監督式學習所得語音表徵進一步提升其表現。透過客觀評量及人類受試者主觀評量，結果顯示本論文所提出之新模型表現超越過去最佳的任意對任意語音轉換模型。另外，對於專注機制的分析，也使我們能窺探及解釋這個基於類神經網路的新模型如何做到語音轉換。	zh_TW
dc.description.provenance	Made available in DSpace on 2022-11-23T09:28:20Z (GMT). No. of bitstreams: 1 U0001-0107202115490900.pdf: 2691448 bytes, checksum: 19f2fe0c718d14cc65239fdbb3a4ff6f (MD5) Previous issue date: 2021	en
dc.description.tableofcontents	中文摘要 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . i 英文摘要 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ii 一、導論 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.1 研究動機 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.2 研究方向 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.3 研究貢獻 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 1.4 章節安排 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 二、背景知識 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 2.1 深層類神經網路 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 2.1.1 前饋類神經網路 . . . . . . . . . . . . . . . . . . . . . . . . . . 8 2.1.2 卷積類神經網路 . . . . . . . . . . . . . . . . . . . . . . . . . . 9 2.1.3 遞迴類神經網路 . . . . . . . . . . . . . . . . . . . . . . . . . . 10 2.1.4 自編碼器 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 2.1.5 專注機制 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 2.2 語音表徵 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 2.2.1 監督式學習之語音表徵 . . . . . . . . . . . . . . . . . . . . . . 20 2.2.2 自監督式學習之語音表徵 . . . . . . . . . . . . . . . . . . . . 21 2.3 語音轉換 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 2.3.1 非平行語料語音轉換 . . . . . . . . . . . . . . . . . . . . . . . 24 2.3.2 任意對任意語音轉換 . . . . . . . . . . . . . . . . . . . . . . . 25 2.4 本章總結 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 三、使用語者表徵於語音轉換任務上之潛在問題 . . . . . . . . . . . . . . . . 27 3.1 語者表徵 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 3.1.1 語者表徵之應用 . . . . . . . . . . . . . . . . . . . . . . . . . . 29 3.2 語者表徵應用於語音轉換之潛在問題 . . . . . . . . . . . . . . . . . . 30 3.3 語者表徵用於語音轉換之強健性分析 . . . . . . . . . . . . . . . . . . 31 3.3.1 對抗式攻擊 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 3.3.2 對抗式攻擊基於語者表徵之語音轉換實驗 . . . . . . . . . . . 34 3.4 本章總結 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 四、自監督式學習語音表徵用於語音轉換之可行性 . . . . . . . . . . . . . . . 44 4.1 自監督式學習語音表徵用於音素辨識 . . . . . . . . . . . . . . . . . . 46 4.1.1 實驗設置 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 4.1.2 實驗結果 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 4.2 自監督式學習語音表徵用於語者識別 . . . . . . . . . . . . . . . . . . 48 4.2.1 實驗設置 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 4.2.2 實驗結果 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 4.3 自監督式學習語音表徵用於語音合成 . . . . . . . . . . . . . . . . . . 49 4.3.1 實驗設置 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 4.3.2 實驗結果 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 4.4 本章總結 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 五、端對端基於範例的任意對任意語音轉換 . . . . . . . . . . . . . . . . . . . 52 5.1 先前技術 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 5.1.1 拼接語音合成 . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 5.1.2 基於範例之語音轉換 . . . . . . . . . . . . . . . . . . . . . . . 56 5.1.3 基於語者表徵之任意對任意語音轉換 . . . . . . . . . . . . . . 57 5.2 模型架構 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 5.2.1 來源編碼器 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 5.2.2 參考編碼器 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 5.2.3 解碼器 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 5.3 模型訓練 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68 5.3.1 訓練語料庫 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68 5.3.2 最佳化方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 5.3.3 初步訓練 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 5.3.4 微調訓練 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 5.4 與其他任意對任意語音轉換模型之比較實驗 . . . . . . . . . . . . . . 71 5.4.1 評量方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 5.4.2 實驗結果 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 5.5 模型組成元件之重要性探討實驗 . . . . . . . . . . . . . . . . . . . . . 77 5.5.1 有無跨專注模組對模型表現之影響 . . . . . . . . . . . . . . . 77 5.5.2 幾項模型設計對模型表現之影響 . . . . . . . . . . . . . . . . 79 5.5.3 參考語音數量對模型表現之影響 . . . . . . . . . . . . . . . . 83 5.6 專注機制及語音轉換機制分析 . . . . . . . . . . . . . . . . . . . . . . 83 5.6.1 專注圖分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 5.6.2 語音轉換機制探討 . . . . . . . . . . . . . . . . . . . . . . . . 87 5.7 音素組成差異於語音轉換之影響實驗 . . . . . . . . . . . . . . . . . . 92 5.7.1 實驗設置 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96 5.7.2 實驗結果 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100 5.8 本章總結 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103 六、結論與展望 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 6.1 研究貢獻與討論 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 6.2 未來展望 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 參考文獻 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
dc.language.iso	zh-TW
dc.subject	基於範例	zh_TW
dc.subject	語音轉換	zh_TW
dc.subject	語音合成	zh_TW
dc.subject	專注機制	zh_TW
dc.subject	Speech synthesis	en
dc.subject	Voice conversion	en
dc.subject	Exemplar-based	en
dc.subject	Attention mechanism	en
dc.title	端對端基於範例的任意對任意語音轉換	zh_TW
dc.title	End-to-End Exemplar-Based Any-to-Any Voice Conversion	en
dc.date.schoolyear	109-2
dc.description.degree	碩士
dc.contributor.oralexamcommittee	李宏毅(Hsin-Tsai Liu),鄭秋豫(Chih-Yang Tseng),王小川,陳信宏,簡仁宗
dc.subject.keyword	語音轉換,語音合成,專注機制,基於範例,	zh_TW
dc.subject.keyword	Voice conversion,Speech synthesis,Attention mechanism,Exemplar-based,	en
dc.relation.page	133
dc.identifier.doi	10.6342/NTU202101228
dc.rights.note	同意授權(全球公開)
dc.date.accepted	2021-07-06
dc.contributor.author-college	電機資訊學院	zh_TW
dc.contributor.author-dept	資訊工程學研究所	zh_TW
顯示於系所單位：	資訊工程學系

文件中的檔案：

檔案	大小	格式
U0001-0107202115490900.pdf	2.63 MB	Adobe PDF	檢視/開啟

顯示文件簡單紀錄

系統中的文件，除了特別指名其著作權條款之外，均受到著作權保護，並且保留所有的權利。