同時學習音素模型及無標註聲學組型之HMM狀態之語者調適

Cheng-Kuan Wei; 魏誠寬

請用此 Handle URI 來引用此文件： http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/52927

標題:	同時學習音素模型及無標註聲學組型之HMM狀態之語者調適 Speaker Adaptation by Joint Learning the HMM states of Phoneme Models and Acoustic Tokens Discovered without Annotations
作者:	Cheng-Kuan Wei 魏誠寬
指導教授:	李琳山(Lin-shan Lee)
關鍵字:	非監督式聲學組型,多目標學習,類神經網路聲學模型,語者調適,個人化語音辨識, unsupervised acoustic token,multi-task learning,neural network-based acoustic model,speech adaptation,personalized speech recognition,
出版年 :	2015
學位:	碩士
摘要:	在語音辨識中，以深層類神經網路 (deep neural network, DNN) 來建構聲學模型 (acoustic model, AM) 的作法已成為主流。但在訓練深層類神經網路時，學習率的調整常是必須且最花時間的步驟。本論文以英文的評效語料 (benchmark corpus) 詳細測試兩種隨著訓練過程中錯誤表面 (error surface) 的變化自動調適學習率的方法：調適次梯度法 (adaptive subgradient method, AdaGrad) 及其結合滑動窗後的改進版本 (AdaDelta)。實驗結果顯示這兩種方法確能減少對學習率的倚賴並加速訓練，其中又以調適次梯度法更為適合快速實驗的情境。另一方面，在個人化語音辨識的情境下，今日個人化的語料已經相當的豐富，但其中大都沒有人工標註的文字轉寫，所以本文也探討了在深層類神經網路的聲學模型架構中，利用將人工標註的音素及以非監督式 (unsupervised) 方式自動產生的聲學組型共用類神經網路的隱藏層的方法，以非監督式聲學組型的隱藏式馬可夫模型 (Hidden Markov Model, HMM) 狀態作為另一組訓練目標，協助我們利用大量沒有文字轉寫的語料來進行語者調適 (speaker adaptation) 。在參照 Facebook 個人動態 (status) 錄製成的中英雙語 (bilingual) 語料的實驗中，我們證實這個方法是有效的，尤其在含文字轉寫的語料量越少時，幫助越明顯。此外，我們也實作了一套透過圖形處理器 (graphics processing unit, GPU) 加速，並實作任意有向無環圖結構及遞迴式的深層類神經網路函數庫及工具。
URI:	http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/52927
全文授權:	有償授權
顯示於系所單位：	電機工程學系

文件中的檔案：

檔案	大小	格式
ntu-104-1.pdf 未授權公開取用	3.96 MB	Adobe PDF

顯示文件完整紀錄

系統中的文件，除了特別指名其著作權條款之外，均受到著作權保護，並且保留所有的權利。

DSpace

機構典藏 DSpace 系統致力於保存各式數位資料（如：文字、圖片、PDF）並使其易於取用。