端對端基於範例的任意對任意語音轉換

Yi-Sheng Lin; 林義聖

請用此 Handle URI 來引用此文件： http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/80140

標題:	端對端基於範例的任意對任意語音轉換 End-to-End Exemplar-Based Any-to-Any Voice Conversion
作者:	Yi-Sheng Lin 林義聖
指導教授:	李琳山
關鍵字:	語音轉換,語音合成,專注機制,基於範例, Voice conversion,Speech synthesis,Attention mechanism,Exemplar-based,
出版年 :	2021
學位:	碩士
摘要:	語音轉換是將一位語者所說出的語音轉換成聽起來像由另一位語者說出，但語音的語言內容維持不變。本論文專注於任意對任意語音轉換，亦即模型能將任意一位語者的聲音轉換成任意另一位語者的聲音，即使這兩位語者的語音都不存在於訓練資料集中。透過提供兩位語者各一段語音給任意對任意語音轉換模型，第一位語者語音的語言內容以及第二位語者語音中的語者相關資訊被提取出來，結合在一起後合成出轉換過後的語音；這是最具一般性的語音轉換設定，卻也最具挑戰性。使合成語音的語言內容清晰自然且與第一段語音完全相同，但聽起來非常像是由第二位語者所說出，便是任意對任意語音轉換的終極目標。本論文透過文獻回顧，首先指出過去將語者表徵用於任意對任意語音轉換模型的潛在問題；接著討論自監督式學習所得語音表徵之潛力，以及其取代過去常用於語音轉換的其他語音表徵之可行性。最後，本論文提出一個全新的任意對任意語音轉換模型，啟發自基於範例的語音轉換，且模型乃基於類神經網路，因而能端到端學習並執行語音轉換；同時，新模型中利用專注機制解決過去使用語者表徵的各種方法之不足，也利用自監督式學習所得語音表徵進一步提升其表現。透過客觀評量及人類受試者主觀評量，結果顯示本論文所提出之新模型表現超越過去最佳的任意對任意語音轉換模型。另外，對於專注機制的分析，也使我們能窺探及解釋這個基於類神經網路的新模型如何做到語音轉換。
URI:	http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/80140
DOI:	10.6342/NTU202101228
全文授權:	同意授權(全球公開)
顯示於系所單位：	資訊工程學系

文件中的檔案：

檔案	大小	格式
U0001-0107202115490900.pdf	2.63 MB	Adobe PDF	檢視/開啟

顯示文件完整紀錄

系統中的文件，除了特別指名其著作權條款之外，均受到著作權保護，並且保留所有的權利。

DSpace

機構典藏 DSpace 系統致力於保存各式數位資料（如：文字、圖片、PDF）並使其易於取用。