強健性語音辨識中處理感知線性預測參數與梅爾倒頻譜係數之進一步方法

Feng-Seng Chu; 朱峰森

請用此 Handle URI 來引用此文件： http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/36510

標題:	強健性語音辨識中處理感知線性預測參數與梅爾倒頻譜係數之進一步方法 Improved Approaches of Processing Perceptual Linear Prediction（PLP）and Mel Frequency Cepstrum Coefficient（MFCC）Parameters for Robust Speech Recognition
作者:	Feng-Seng Chu 朱峰森
指導教授:	李琳山
關鍵字:	梅爾倒頻譜係數,桿之線性預測參數,強健性, MFCC,PLP,Robustness,
出版年 :	2005
學位:	碩士
摘要:	為了使語音辨識成為隨時隨地都可以使用的人機介面，探討如何提高其強健性，減低環境不匹配對辨識率的影響，便成為一個很重要的研究方向。本論文即是藉由前端對辨識參數的處理來提升對聲學環境改變的強健性。本論文以兩種最為主流的特徵參數，亦即梅爾倒頻譜係數（Mel Frequency Cepstrum coefficient，MFCC）與感知線性預測參數（Perceptual Linear Prediction）為對象，分別結合各種強健性處理的技術，並討論將來兩種特徵參數整合的可能性。實驗結果顯示，在未曾結合任何強健性處理時，感知線性預測參數的效果要比梅爾倒頻譜係數要好，在乾淨語音訓練模式下，對所有的測試條件做平均之後，感知線性預測參數基礎實驗的正確率為63.38%，而梅爾倒頻譜係數僅為60.3%，但結合強健性處理之後，兩者便介於伯仲之間。若嚐試將各種強健性的方法以串接的方式結合，那麼就會發現僅有某些結合有加成性，而大部分都是沒有的。本論文並仔細測試出兩種有加成性的組合方式，分別是將特徵參數向量正規化之後再結合多特性向量時域濾波器，以及兩階式維納濾波器結合訊噪比相關波形處理法及盲目等化法，後者事實上與ETSI所提出的進階式前端處理（Advance Front End）[24]的差異僅是本論文同時測試了使用梅爾倒頻譜係數及感知線性預測參數的狀況，然後比較了兩者的差異。本論文最後進一步嚐試用各種不同的方式去整合兩種不同的特徵參數，希望利用兩者間互補的資訊得到比兩者任一都要好的結果。實驗結果顯示，整合後的確可獲得較佳的結果。
URI:	http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/36510
全文授權:	有償授權
顯示於系所單位：	電信工程學研究所

文件中的檔案：

檔案	大小	格式
ntu-94-1.pdf 目前未授權公開取用	2.02 MB	Adobe PDF

顯示文件完整紀錄

系統中的文件，除了特別指名其著作權條款之外，均受到著作權保護，並且保留所有的權利。

DSpace

機構典藏 DSpace 系統致力於保存各式數位資料（如：文字、圖片、PDF）並使其易於取用。