Skip navigation

DSpace

機構典藏 DSpace 系統致力於保存各式數位資料(如:文字、圖片、PDF)並使其易於取用。

點此認識 DSpace
DSpace logo
English
中文
  • 瀏覽論文
    • 校院系所
    • 出版年
    • 作者
    • 標題
    • 關鍵字
  • 搜尋 TDR
  • 授權 Q&A
    • 我的頁面
    • 接受 E-mail 通知
    • 編輯個人資料
  1. NTU Theses and Dissertations Repository
  2. 電機資訊學院
  3. 電信工程學研究所
請用此 Handle URI 來引用此文件: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/48026
標題: 用串接式系統整合加伯與基頻特徵之國語語音辨識
Integrating Gabor and Pitch Features in Tandem Systems for Mandarin Speech Recognition
作者: Shang-Wen Li
李尚文
指導教授: 李琳山
關鍵字: 語音辨識,特徵抽取,串接式系統,
speech recognition,feature extraction,Tandem system,
出版年 : 2011
學位: 碩士
摘要: 傳統語音辨識中,使用梅爾倒頻譜係數特徵參數來抽取聲音訊號中的語音資訊,並用這樣的特徵參數訓練統計模型,對聲音加以辨識;然而梅爾倒頻譜係數有一些無法克服的缺點,例如其所抽取的資訊僅限於短時間內等。近年來已有不少研究,藉由抽取聲音中更長時間的訊息,或是時域、頻域及時頻域上的變化,來獲取更豐富的特徵參數,進而提升辨識系統的效能。
本論文中,利用加伯濾波器抽取出富含時頻訊息的特徵參數,經多層感知器學習其在不同音素間的變化,得到音素事後機率向量,並藉由串接式系統將加伯事後機率和梅爾倒頻譜係數事後機率做整合,發現可以提升辨識系統的正確率。此外,我們進一步藉由群聚階層式多層感知器,針對易混淆的音素,估計更為精準的事後機率,改善了辨識系統的效能。最後,我們在特徵參數中加入了基頻特徵,並在聲學模型中考慮了聲調的變化,這樣的語音辨識系統在中文大字彙新聞辨識實驗中,辨識正確率有顯著的進步。
In conventional speech recognition, we use MFCC features to extract speech information in waveform. We further train statistic models with these features for decoding. However, MFCC features retain only the information within a short time span. Recently, many researches focus on extracting long-term information from speech signal or the variation in spectral, temporal or spectro-temporal modulation frequency, and these studies achieve significant performance improvement.
Here, we utilize Gabor filters to extract Gabor features, which are abundant in spectro-temporal information. An MLP is trained for learning the variation of Gabor features among different phonemes. The outputs of MLP are Gabor posteriors. We use Tandem system to integrate Gabor and MFCC posteriors and achieve better performance in our speech recognition system. Furthermore, we estimate posteriors more accurately by clustered hierarchical MLP, which emphasize on the classification of error-prone phoneme pairs. Thus, we obtain even better recognition performance. Finally, we add pitch features while MLP training and adopt tonal acoustic units. With these modifications, we significantly improve the performance in Mandarin large vocabulary broadcast news recognition.
URI: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/48026
全文授權: 有償授權
顯示於系所單位:電信工程學研究所

文件中的檔案:
檔案 大小格式 
ntu-100-1.pdf
  目前未授權公開取用
16.81 MBAdobe PDF
顯示文件完整紀錄


系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。

社群連結
聯絡資訊
10617臺北市大安區羅斯福路四段1號
No.1 Sec.4, Roosevelt Rd., Taipei, Taiwan, R.O.C. 106
Tel: (02)33662353
Email: ntuetds@ntu.edu.tw
意見箱
相關連結
館藏目錄
國內圖書館整合查詢 MetaCat
臺大學術典藏 NTU Scholars
臺大圖書館數位典藏館
本站聲明
© NTU Library All Rights Reserved