Skip navigation

DSpace

機構典藏 DSpace 系統致力於保存各式數位資料(如:文字、圖片、PDF)並使其易於取用。

點此認識 DSpace
DSpace logo
English
中文
  • 瀏覽論文
    • 校院系所
    • 出版年
    • 作者
    • 標題
    • 關鍵字
    • 指導教授
  • 搜尋 TDR
  • 授權 Q&A
    • 我的頁面
    • 接受 E-mail 通知
    • 編輯個人資料
  1. NTU Theses and Dissertations Repository
  2. 電機資訊學院
  3. 電機工程學系
請用此 Handle URI 來引用此文件: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/40638
完整後設資料紀錄
DC 欄位值語言
dc.contributor.advisor李琳山(Lin-shan Lee)
dc.contributor.authorAlice Ju 朱斯詠en
dc.contributor.author朱斯詠zh_TW
dc.date.accessioned2021-06-14T16:54:11Z-
dc.date.available2008-08-05
dc.date.copyright2008-08-05
dc.date.issued2008
dc.date.submitted2008-07-30
dc.identifier.citation[1] H. Hermansky, TRAP-TANDEM Data-driven extraction of temporal features from speech,IEEE.,2003
[2] R. Vergin, D. O'Shaughnessy, “Pre-Emphasis and Speech Recognition,” Electrical and Computer Engineering, Canada, 5-8 Sep, 1995
[3] H. Hermansky, 'Perceptual linear predictive (PLP) analysis of speech', J. Acoust. Soc. Am., vol. 87, no. 4, pp. 1738-1752, Apr. 1990
[4] J. Makhoul. Linear prediction: A tutorial review. Proceedings of the IEEE, 63 (5):561–580, April 1975
[5] I.T.Jolliffe, Principal Component Analysis. Springer-Verlag, 1986
[6] Http://www.icsi.berkeley.edu/speech/faq/ICSI_SPEECH_FAQ
[7] H. Fletcher, Speech and hearing in communication, The ASA edition, edited by J.B.Allen, Acoust.
[8] 蔡尚年,”以同步式分佈等化法為基礎的強健性語音特徵前端處理技術”,台灣大學碩士論文,2004
[9] 朱峰森,”強健性語音辨識中處理感知線性預測參數與梅爾倒頻譜係數的進一步方法”,台灣大學碩士論文,2005
dc.identifier.urihttp://tdr.lib.ntu.edu.tw/jspui/handle/123456789/40638-
dc.description.abstract語音辨識中梅爾倒頻譜特徵參數一直占有相當大的地位,但是傳統使用梅爾倒頻譜特徵參數和隱藏式馬可夫模型的辨識系功能仍未能完全符合使用者的期待,因此在本文中我們探討了引入新的特徵參數及新的分類系統的串接式系統。
在特徵參數的抽取中,我們選擇將梅爾倒頻譜特徵參數各個維度分開處理,取出一段長時間內的特徵參數作為新的時間樣式特徵參數,由實驗結果發現,這樣的特徵參數經兩次的多層次感知器訓練後,可達94.4%的音框正確率,而將多層次感知器所輸出的事後機率與原先的特徵參數結合後,詞正確率由原先單用梅爾倒頻譜特徵參數的92.9%進步到93.23%,顯示這樣的方法的確有提升語音辨識系統的效果。同時我們也發現這樣的特徵參數與梅爾倒頻譜特徵參數結合後必須做主成分分析才能得到更好的辨識率,顯示經多層次感知器處理過後的特徵參數與原先的梅爾倒頻譜特徵參數仍然有一定程度的相關。
我們比較了使用不同的訓練目標來訓練多層次感知器,發現當訓練目標集合數過少時,多層次感知器無法正確地學習到該集合的特徵,反之,當多層次感知器的訓練目標集合多時,多層次感知器能夠正確地學習到該集合的特徵。
此外,對於解讀多層次感知器所輸出的事後機率結果,我們也做了詳細的分析。我們發現,多層次感知器所輸出的事後機率彼此之間差異越大,作為隱藏式馬可夫模型辨識時可以得到較高的辨識率,反之當多層次感知器所輸出的事後機率很平均的時候,隱藏式馬可夫模型辨識便無法得到好的結果。另外,在使用一個多層次感知器訓練數個多層次感知器所輸出的事後機率時,第一層多層次感知器所輸出的音框正確率平均值是不重要的,反而是第一層多層次感知器中,具有最高音框辨識率的多層次感知器是最重要的,在後端能不能有更好的效果,端看前端的多層次感知器最高的音框正確率是否夠高。
zh_TW
dc.description.provenanceMade available in DSpace on 2021-06-14T16:54:11Z (GMT). No. of bitstreams: 1
ntu-97-R95921021-1.pdf: 1588840 bytes, checksum: c3a0b78fac24bb599f62db2e0e020ba3 (MD5)
Previous issue date: 2008
en
dc.description.tableofcontents目錄
口試委員會審定書 #
誌謝中文摘要 i
中文摘要 iii
目錄 iv
圖目錄 vii
表目錄 viii
第 1 章 緒論 1
1.1 研究動機 1
1.2 特徵向量簡介 1
1.2.1 短時域-廣頻譜特徵向量 1
1.2.2 長時域-窄頻譜特徵向量 1
1.3 研究方向及主要成果 2
1.4 章節概要 2
第 2 章 研究背景 3
2.1 梅爾倒頻譜係數 3
2.1.1 預強調(Pre-emphasis) 3
2.1.2 漢明窗 4
2.1.3 離散傅立葉轉換及梅爾濾波器組 4
2.1.4 對數能量 5
2.2 感知線性預測參數(Perceptual Linear Prediction) 5
2.2.1 相等音量預強調(Equal Loudness Pre-emphasis) 6
2.2.2 線性預測(Linear Prediction) 7
2.2.3 臨界頻帶濾波器(Critical Band filters) 8
2.3 隱藏式馬可夫模型語音辨識系統結構 9
2.3.1 馬可夫程序(Markov Process) 9
2.3.2 隱藏式馬可夫模型(Hidden Markov Model) 9
2.3.3 隱藏式馬可夫模型在語音辨識上的應用 10
2.4 主成分分析 11
2.5 本章小結 12
第 3 章 研究方法 13
3.1 長時域特徵參數抽取(TRAPs,Temporal patters feature extraction) 13
3.1.1 基於短時域特徵參數上的時間樣式特徵參數抽取流程 15
3.1.2 直接使用濾波器輸出的時間樣式特徵參數抽取流程 16
3.2 多層次感知器 16
3.2.1 類神經網路(Artificial Neural Network) 16
3.2.2 多層次感知器在語音辨識上之應用 19
3.2.3 多層次感知器實做工具:QuickNet 21
3.3 串接式系統(Tandem system) 22
3.4 本章小節 23
第 4 章 實驗及結果分析 25
4.1 語料介紹 25
4.2 實驗系統設定 25
4.3 基礎實驗 26
4.4 單一特徵參數的串接式系統 27
4.4.1 多層次感知器分類依據的比較 27
4.4.2 使用不同種類特徵參數產生時間樣式特徵參數 28
4.4.3 使用梅爾倒頻譜係數的串接式系統 30
4.5 串接式系統比較實驗 31
4.5.1 結合梅爾倒頻譜特徵參數與使用梅爾倒頻譜特徵參數的時間樣式特徵參數 32
4.5.2 結合感知線性預測特徵參數與使用梅爾倒頻譜特徵參數的時間樣式特徵參數 33
4.6 實驗結果分析 35
4.6.1 多層次感知器輸出所代表的意義 35
4.6.2 結合不同特徵參數的串接式系統 37
第 5 章 結論與展望 39
5.1 結論 39
5.2 展望 39
REFERENCE 41
dc.language.isozh-TW
dc.subject長時域特徵參數zh_TW
dc.subject語音辨識zh_TW
dc.subject串接式系統zh_TW
dc.subjectTandem Systemen
dc.subjectLong-term featureen
dc.subjectSpeech Recognitionen
dc.title使用長時域特徵參數的串接式辨識系統zh_TW
dc.titleTandem Recognition System based on Long-term Acoustic Featuresen
dc.typeThesis
dc.date.schoolyear96-2
dc.description.degree碩士
dc.contributor.oralexamcommittee簡仁宗(Jen-Tzung Chien),鄭秋豫(Chiu-yu Tseng),陳信宏(Sin-Horng Chen),王小川(Hsiao-Chuan Wang)
dc.subject.keyword語音辨識,串接式系統,長時域特徵參數,zh_TW
dc.subject.keywordSpeech Recognition,Tandem System,Long-term feature,en
dc.relation.page41
dc.rights.note有償授權
dc.date.accepted2008-07-30
dc.contributor.author-college電機資訊學院zh_TW
dc.contributor.author-dept電機工程學研究所zh_TW
顯示於系所單位:電機工程學系

文件中的檔案:
檔案 大小格式 
ntu-97-1.pdf
  未授權公開取用
1.55 MBAdobe PDF
顯示文件簡單紀錄


系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。

社群連結
聯絡資訊
10617臺北市大安區羅斯福路四段1號
No.1 Sec.4, Roosevelt Rd., Taipei, Taiwan, R.O.C. 106
Tel: (02)33662353
Email: ntuetds@ntu.edu.tw
意見箱
相關連結
館藏目錄
國內圖書館整合查詢 MetaCat
臺大學術典藏 NTU Scholars
臺大圖書館數位典藏館
本站聲明
© NTU Library All Rights Reserved