使用基於樹狀分類器之串接式聲學模型之中文大字彙語音辨識

Chih-Hao Hung; 洪志豪

請用此 Handle URI 來引用此文件： http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/44663

標題:	使用基於樹狀分類器之串接式聲學模型之中文大字彙語音辨識 Tandem System with Tree-Based Classifiers for Mandarin LVCSR
作者:	Chih-Hao Hung 洪志豪
指導教授:	李琳山(Lin-Shan Lee)
關鍵字:	中文大字彙語音辨識,串接式聲學模型,模糊決策樹,模糊隨機森林,AdaBoost, Mandarin LVCSR,tandem system,fuzzy decision tree,fuzzy random forest,AdaBoost,
出版年 :	2010
學位:	碩士
摘要:	近年來由於機器學習(machine learning)的蓬勃發展，有越來越多語音相關的研究開始使用各式各樣該領域的新技術與新模型。其中有一群人的作法是維持傳統聲學模型常用的隱馬可夫模型(hidden Markov model, HMM)的架構來處理語音訊號在相近時間上的相依性，再加入其他機器學習裡的分類器作為輔助。他們的方法可概括分為混合式(hybrid)聲學模型及串接式(tandem)聲學模型。本論文嘗詴使用一些樹狀分類器的集成(ensemble)來取代串接式聲學模型中常用的多層感知器(multi-layer perceptron, MLP)，並為了配合隱馬可夫模型中高斯混合模型(Gaussian mixture model, GMM)的使用，引入模糊理論(fuzzy theory)的想法來得到連續的事後機率向量分布。本論文所使用的前端分類器有模糊隨機森林(fuzzy random forest, FRF)與以模糊決策樹(fuzzy decision tree, FDT)為基底學習器的AdaBoost.M2，並提出幾個降低計算複雜度的方法與分類錯誤最小化訓練的改進。實驗結果顯示，雖然進步量比不上常用的多層感知器，本論文提出的作法還是優於傳統的聲學模型。最後分析串接式聲學模型的有效條件並舉實驗結果加以驗證，再依分析結果選取適當參數重新訓練前端分類器，進一步提升字元正確率；相對於傳統聲學模型的字元錯誤率，可以得到8.56%的相對進步率。
URI:	http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/44663
全文授權:	有償授權
顯示於系所單位：	資訊工程學系

文件中的檔案：

檔案	大小	格式
ntu-99-1.pdf 未授權公開取用	1.26 MB	Adobe PDF

顯示文件完整紀錄

系統中的文件，除了特別指名其著作權條款之外，均受到著作權保護，並且保留所有的權利。

DSpace

機構典藏 DSpace 系統致力於保存各式數位資料（如：文字、圖片、PDF）並使其易於取用。