請用此 Handle URI 來引用此文件:
http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/74833
標題: | 結合多目標及彈性韻律且無需平行資料的語音轉換 Multi-target Rhythm-flexible Voice Conversion without Parallel Data |
作者: | Cheng-chieh Yeh 葉政杰 |
指導教授: | 李琳山(Lin-shan Lee) |
關鍵字: | 機器學習,語音轉換,語音訊號處理, Machine learning,Voice conversion,Speech signal processing, |
出版年 : | 2019 |
學位: | 碩士 |
摘要: | 語音轉換(Voice Conversion)領域中已有非常多使用不同架構的類神經網路(Neural Network)來解決傳統模型在估計上不夠精確的問題。然而,訓練此種監督式學習(Supervised Learning)模型的一個關鍵,就是來源語者(Source Speaker)及目標語者(Target Speaker)的平行資料(Parallel Data)數量是否足夠,但平行資料一向不易取得。因此無需平行資料(Non-parallel Data)的非監督式學習(Unsupervised Learning)在今日的語音轉換技術而 言仍是一個重要的核心問題。而每個語者都有其各自獨特的說話特性,包括語速(Speech Rate)及發每一個音素時各有不同的音長分佈,在本論文中稱為韻律類型(Rhythmic Pattern)等,如何可以彈性地調整這些特性使得語音轉換結果更接近目標語者的聲音也是另一個非常值得深入研究的問題。
本論文首先探討了不同輸入特徵(Feature)搭配循環生成式對抗網路(Cycle-GAN)的損失函數(Loss Function)對於訓練此類非監督式學習模型的影響。更進一步地,為了使轉換結果更能貼近目標語者的聲音,本論文也在原來循環生成式對抗網路的損失函數下引入了序列到序列學習(Sequence-to-sequence Learning)來改進當前無需平行資料的語音轉換方法中,語速、韻律類型無法彈性調整的問題。最後則是使用星型生成式對抗網路(Star-GAN)來取代循環生成式對抗網路,達到僅需訓練一組生成器(Generator)就可進行多目標的語音轉換。 本論文使用多種衡量方法包括由人類受試者主觀(Subjective)評量的語音自然 度(Naturalness)、語者相似度(Similarity),以及由機器客觀(Objective)量測所得的語速、韻律類型的分佈變化等。結果都顯示,本論文所提出的以循環生成式對抗網路加上序列到序列學習的方法可以在無需平行資料的條件下更能夠學習到目標語者獨特的說話特性。最後也證明在僅使用一組生成器時,使用星型生成式對抗網路可以完成多目標語者的任務並達到與單一目標語者使用循環生成式對抗網路時接近的結果,成功完成了結合多目標及彈性韻律且無需平行資料的語音轉換。 |
URI: | http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/74833 |
DOI: | 10.6342/NTU201904272 |
全文授權: | 有償授權 |
顯示於系所單位: | 電信工程學研究所 |
文件中的檔案:
檔案 | 大小 | 格式 | |
---|---|---|---|
ntu-108-1.pdf 目前未授權公開取用 | 10.96 MB | Adobe PDF |
系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。