請用此 Handle URI 來引用此文件:
http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/6200| 標題: | 基於變數選取聲學模型調適法之強健式語音辨識 Acoustic Model Adaptation with Variable Selection for Robust Speech Recognition |
| 作者: | Ting-Yao Hu 胡庭曜 |
| 指導教授: | 李琳山(Lin-Shan Lee) |
| 關鍵字: | 聲學模型調適,仿射轉換,變數選取, Acoustic Model Adaptation,Affine Transformation,Variable Selection, |
| 出版年 : | 2013 |
| 學位: | 碩士 |
| 摘要: | 聲學模型調適是改善聲學環境不匹配問題,增進語音辨識系統效能的一個重
要方向。仿射轉換方法(affine transformation) ,如最大相似度線性回歸(Maximum Likelihood Linear Regression, MLLR) ,在一般的聲學模型調適任務中有很好的效果。然而在缺乏調適語料及正確轉寫(transcription) 的自我調適情境(self adaptation)下,一般的仿射轉換調適方法容易造成過度貼合(over-fitting)問題。為此,本論文利用變數選取(variable selection) 的技術,提出兩種方法: 變數選取-最大相似度線性回歸(Variable Selection MLLR, VSMLLR) 以及變數選取-特徵最大相似度線性回歸(Variable Selection feature MLLR, VSfMLLR)。這兩種方法先以一些事前知識建構變數子集,再基於各變數子集以最大相似度準則求出對應的仿射轉換矩陣,最後利用正則化訓練準則(regularization criterion) 當作子集與其對應仿射轉換的評量分數。利用此方法,我們可以在系統上線時,即時為每句測試語料找出適合的變數子集、有效控制調適參數的複雜度、克服過度貼合問題並使辨識率進步。當這些方法實做在Aurora-4語料庫上時,可發現測試集的辨識率較基本系統有顯著的進步。並勝過了一般常見的仿射轉換調適法,以及各種正則化訓練準則的延伸。相較於基本系統的77.47%字正確率,在沒有額外的調適語料的條件下, 變數選取-最大相似度線性回歸以及變數選取-特徵最大相似度線性回歸分別將字正確率提升至80.10%與81.15%,相對進步率分別為11.67%以及16.33%。 |
| URI: | http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/6200 |
| 全文授權: | 同意授權(全球公開) |
| 顯示於系所單位: | 電信工程學研究所 |
文件中的檔案:
| 檔案 | 大小 | 格式 | |
|---|---|---|---|
| ntu-102-1.pdf | 3.35 MB | Adobe PDF | 檢視/開啟 |
系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。
