使用長時域特徵參數的串接式辨識系統

Alice Ju 朱斯詠; 朱斯詠

請用此 Handle URI 來引用此文件： http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/40638

標題:	使用長時域特徵參數的串接式辨識系統 Tandem Recognition System based on Long-term Acoustic Features
作者:	Alice Ju 朱斯詠朱斯詠
指導教授:	李琳山(Lin-shan Lee)
關鍵字:	語音辨識,串接式系統,長時域特徵參數, Speech Recognition,Tandem System,Long-term feature,
出版年 :	2008
學位:	碩士
摘要:	語音辨識中梅爾倒頻譜特徵參數一直占有相當大的地位，但是傳統使用梅爾倒頻譜特徵參數和隱藏式馬可夫模型的辨識系功能仍未能完全符合使用者的期待，因此在本文中我們探討了引入新的特徵參數及新的分類系統的串接式系統。在特徵參數的抽取中，我們選擇將梅爾倒頻譜特徵參數各個維度分開處理，取出一段長時間內的特徵參數作為新的時間樣式特徵參數，由實驗結果發現，這樣的特徵參數經兩次的多層次感知器訓練後，可達94.4%的音框正確率，而將多層次感知器所輸出的事後機率與原先的特徵參數結合後，詞正確率由原先單用梅爾倒頻譜特徵參數的92.9%進步到93.23%，顯示這樣的方法的確有提升語音辨識系統的效果。同時我們也發現這樣的特徵參數與梅爾倒頻譜特徵參數結合後必須做主成分分析才能得到更好的辨識率，顯示經多層次感知器處理過後的特徵參數與原先的梅爾倒頻譜特徵參數仍然有一定程度的相關。我們比較了使用不同的訓練目標來訓練多層次感知器，發現當訓練目標集合數過少時，多層次感知器無法正確地學習到該集合的特徵，反之，當多層次感知器的訓練目標集合多時，多層次感知器能夠正確地學習到該集合的特徵。此外，對於解讀多層次感知器所輸出的事後機率結果，我們也做了詳細的分析。我們發現，多層次感知器所輸出的事後機率彼此之間差異越大，作為隱藏式馬可夫模型辨識時可以得到較高的辨識率，反之當多層次感知器所輸出的事後機率很平均的時候，隱藏式馬可夫模型辨識便無法得到好的結果。另外，在使用一個多層次感知器訓練數個多層次感知器所輸出的事後機率時，第一層多層次感知器所輸出的音框正確率平均值是不重要的，反而是第一層多層次感知器中，具有最高音框辨識率的多層次感知器是最重要的，在後端能不能有更好的效果，端看前端的多層次感知器最高的音框正確率是否夠高。
URI:	http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/40638
全文授權:	有償授權
顯示於系所單位：	電機工程學系

文件中的檔案：

檔案	大小	格式
ntu-97-1.pdf 未授權公開取用	1.55 MB	Adobe PDF

顯示文件完整紀錄

系統中的文件，除了特別指名其著作權條款之外，均受到著作權保護，並且保留所有的權利。

DSpace

機構典藏 DSpace 系統致力於保存各式數位資料（如：文字、圖片、PDF）並使其易於取用。