基於類神經網路的端對端語音合成系統之表現強化

Chi-Yu Yang; 楊棋宇

Please use this identifier to cite or link to this item: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/71969

Title:	基於類神經網路的端對端語音合成系統之表現強化 Performance Improvement of Neural Network based End-to-end Text-to-Speech System
Authors:	Chi-Yu Yang 楊棋宇
Advisor:	李宏毅
Keyword:	語音合成,端對端,粒度,語音轉換, speech synthesis,end to end,granularity,voice conversion,
Publication Year :	2018
Degree:	碩士
Abstract:	本論文之主軸在探討以序列對序列模型實作語音合成，並且強化多語者之語音合成。隨著科技的演進，智慧裝置已經融入我們的生活，在各式場合隨處可見，人們偏好使用更直覺的語音來取代文字輸入與智慧裝置溝通，裝置同樣也以語音回饋，語音合成技術就顯得相當重要。傳統語音合成系統大致可分為串接式語音合成與統計模型式語音合成兩大類，而近期隨著類神經網路如火如荼的發展，語音合成大部分基於深度類神經網路的模型來實現。本論文所使用之塔可創 (Tacotron) 模型，即為基於深度類神經網路的模型，塔可創模型在近期語音合成領域相當火紅，能合成出品質良好的語音，不過此前大部分的研究都以英文為主。本論文首先研究比較以不同粒度文字單位作為端對端中文語音合成模型之輸入，對合成語音品質的影響，並加入引導式專注機制 (Guided Attention)，希望能夠引導模型在合成語音時，專注於文字編碼正確的位置，快速學好專注機制。接著使用塔可創模型實現端對端中文文字對閩南語語音之語音合成系統，希望能夠達成即使目標語言沒有標準的文字，也能夠以端對端學習利用來源語言文字與目標語言語音的對應關係，輸入來源語言文字來合成目標語言語音，實作中另外加入了計劃式取樣 (Schedule Sampling) 嘗試解決合成語音品質不佳的問題。最後以加入參考音檔編碼器之塔可創模型來實現多語者語音合成系統，並且引入自動語音辨識鑑別器強化此多語者語音合成系統，解決模型依賴過多參考音檔中的文字資訊而忽略輸入文字資訊，造成合成出的語音與輸入文字無關或是語音模糊的問題，能夠達成在犧牲極少語音品質的狀況下，不受參考音檔的影響。
URI:	http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/71969
DOI:	10.6342/NTU201803811
Fulltext Rights:	有償授權
Appears in Collections:	電信工程學研究所

Files in This Item:

File	Size	Format
ntu-107-1.pdf Restricted Access	11.28 MB	Adobe PDF

Show full item record

DSpace JSPUI

DSpace preserves and enables easy and open access to all types of digital content including text, images, moving images, mpegs and data sets