基於深度學習之端對端閩南語語音辨識

Yung-Che Chen; 陳永哲

請用此 Handle URI 來引用此文件： http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/69809

標題:	基於深度學習之端對端閩南語語音辨識 End-to-End Deep Learning based Automatic Speech Recognition for Minnan Language
作者:	Yung-Che Chen 陳永哲
指導教授:	李宏毅(Hung-Yi Lee)
關鍵字:	深度學習,閩南語,語音辨識,端對端,鏈結式時間分類算法, deep learning,Minnan Language,ASR,End-to-End,CTC,
出版年 :	2018
學位:	碩士
摘要:	本論文主要目標為實現端對端(End-to-End)的閩南語語音辨識翻譯系統。閩南語是台灣重要的文化資產，但閩南語教學授課遠不及國語的使用量，且對於閩南語書寫的規定也未盡完善，使得閩南語人口後代的年輕族群已無法流暢使用該語言。在現今的環境下，已經很少人能夠讀懂閩南話的文字。因此，一套閩南語與中文之間的的翻譯系統就顯得重要。近年來的自動語音辨識系統以及翻譯系統日漸普及，也有許多結合兩種功能的系統出生，但卻鮮少台語語音辨識以及翻譯的例子。傳統的語音辨識系統中，使用遞迴式神經網路(recurrent neural network, RNN)的方法，是與隱藏式馬可夫模型(hidden Markov model, HMM)結合在一起的方法。此系統使用隱藏式馬爾可夫模型來建模數據中的音素序列結構，使用類神經網路來提供局部分類能力。隱藏式馬爾可夫模型部分可以在訓練過程中自動的分割片段序列，將網路分類轉換成標籤序列。但是，同樣繼承了隱藏式馬爾可夫模型的缺點，此系統沒有充分利用遞迴式神經網路在序列模型上的潛力。近年來鏈結式時間分類算法(Connectionist Temporal Classification, CTC)以及序列到序列模型(Sequence-to-sequence, Seq-2-seq)蓬勃發展，本論文之主軸在探討使用這兩個模型相比於傳統語音辨識模型結果的不同，以及嘗試將兩種模型結合以建構出新的模型。
URI:	http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/69809
DOI:	10.6342/NTU201800668
全文授權:	有償授權
顯示於系所單位：	電信工程學研究所

文件中的檔案：

檔案	大小	格式
ntu-107-1.pdf 未授權公開取用	3.78 MB	Adobe PDF

顯示文件完整紀錄

系統中的文件，除了特別指名其著作權條款之外，均受到著作權保護，並且保留所有的權利。

DSpace

機構典藏 DSpace 系統致力於保存各式數位資料（如：文字、圖片、PDF）並使其易於取用。