基於類神經網路的端對端語音合成系統之表現強化

Chi-Yu Yang; 楊棋宇

請用此 Handle URI 來引用此文件： http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/71969

標題:	基於類神經網路的端對端語音合成系統之表現強化 Performance Improvement of Neural Network based End-to-end Text-to-Speech System
作者:	Chi-Yu Yang 楊棋宇
指導教授:	李宏毅
關鍵字:	語音合成,端對端,粒度,語音轉換, speech synthesis,end to end,granularity,voice conversion,
出版年 :	2018
學位:	碩士
摘要:	本論文之主軸在探討以序列對序列模型實作語音合成，並且強化多語者之語音合成。隨著科技的演進，智慧裝置已經融入我們的生活，在各式場合隨處可見，人們偏好使用更直覺的語音來取代文字輸入與智慧裝置溝通，裝置同樣也以語音回饋，語音合成技術就顯得相當重要。傳統語音合成系統大致可分為串接式語音合成與統計模型式語音合成兩大類，而近期隨著類神經網路如火如荼的發展，語音合成大部分基於深度類神經網路的模型來實現。本論文所使用之塔可創 (Tacotron) 模型，即為基於深度類神經網路的模型，塔可創模型在近期語音合成領域相當火紅，能合成出品質良好的語音，不過此前大部分的研究都以英文為主。本論文首先研究比較以不同粒度文字單位作為端對端中文語音合成模型之輸入，對合成語音品質的影響，並加入引導式專注機制 (Guided Attention)，希望能夠引導模型在合成語音時，專注於文字編碼正確的位置，快速學好專注機制。接著使用塔可創模型實現端對端中文文字對閩南語語音之語音合成系統，希望能夠達成即使目標語言沒有標準的文字，也能夠以端對端學習利用來源語言文字與目標語言語音的對應關係，輸入來源語言文字來合成目標語言語音，實作中另外加入了計劃式取樣 (Schedule Sampling) 嘗試解決合成語音品質不佳的問題。最後以加入參考音檔編碼器之塔可創模型來實現多語者語音合成系統，並且引入自動語音辨識鑑別器強化此多語者語音合成系統，解決模型依賴過多參考音檔中的文字資訊而忽略輸入文字資訊，造成合成出的語音與輸入文字無關或是語音模糊的問題，能夠達成在犧牲極少語音品質的狀況下，不受參考音檔的影響。
URI:	http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/71969
DOI:	10.6342/NTU201803811
全文授權:	有償授權
顯示於系所單位：	電信工程學研究所

文件中的檔案：

檔案	大小	格式
ntu-107-1.pdf 目前未授權公開取用	11.28 MB	Adobe PDF

顯示文件完整紀錄

系統中的文件，除了特別指名其著作權條款之外，均受到著作權保護，並且保留所有的權利。

DSpace

機構典藏 DSpace 系統致力於保存各式數位資料（如：文字、圖片、PDF）並使其易於取用。