請用此 Handle URI 來引用此文件:
http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/40638完整後設資料紀錄
| DC 欄位 | 值 | 語言 |
|---|---|---|
| dc.contributor.advisor | 李琳山(Lin-shan Lee) | |
| dc.contributor.author | Alice Ju 朱斯詠 | en |
| dc.contributor.author | 朱斯詠 | zh_TW |
| dc.date.accessioned | 2021-06-14T16:54:11Z | - |
| dc.date.available | 2008-08-05 | |
| dc.date.copyright | 2008-08-05 | |
| dc.date.issued | 2008 | |
| dc.date.submitted | 2008-07-30 | |
| dc.identifier.citation | [1] H. Hermansky, TRAP-TANDEM Data-driven extraction of temporal features from speech,IEEE.,2003
[2] R. Vergin, D. O'Shaughnessy, “Pre-Emphasis and Speech Recognition,” Electrical and Computer Engineering, Canada, 5-8 Sep, 1995 [3] H. Hermansky, 'Perceptual linear predictive (PLP) analysis of speech', J. Acoust. Soc. Am., vol. 87, no. 4, pp. 1738-1752, Apr. 1990 [4] J. Makhoul. Linear prediction: A tutorial review. Proceedings of the IEEE, 63 (5):561–580, April 1975 [5] I.T.Jolliffe, Principal Component Analysis. Springer-Verlag, 1986 [6] Http://www.icsi.berkeley.edu/speech/faq/ICSI_SPEECH_FAQ [7] H. Fletcher, Speech and hearing in communication, The ASA edition, edited by J.B.Allen, Acoust. [8] 蔡尚年,”以同步式分佈等化法為基礎的強健性語音特徵前端處理技術”,台灣大學碩士論文,2004 [9] 朱峰森,”強健性語音辨識中處理感知線性預測參數與梅爾倒頻譜係數的進一步方法”,台灣大學碩士論文,2005 | |
| dc.identifier.uri | http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/40638 | - |
| dc.description.abstract | 語音辨識中梅爾倒頻譜特徵參數一直占有相當大的地位,但是傳統使用梅爾倒頻譜特徵參數和隱藏式馬可夫模型的辨識系功能仍未能完全符合使用者的期待,因此在本文中我們探討了引入新的特徵參數及新的分類系統的串接式系統。
在特徵參數的抽取中,我們選擇將梅爾倒頻譜特徵參數各個維度分開處理,取出一段長時間內的特徵參數作為新的時間樣式特徵參數,由實驗結果發現,這樣的特徵參數經兩次的多層次感知器訓練後,可達94.4%的音框正確率,而將多層次感知器所輸出的事後機率與原先的特徵參數結合後,詞正確率由原先單用梅爾倒頻譜特徵參數的92.9%進步到93.23%,顯示這樣的方法的確有提升語音辨識系統的效果。同時我們也發現這樣的特徵參數與梅爾倒頻譜特徵參數結合後必須做主成分分析才能得到更好的辨識率,顯示經多層次感知器處理過後的特徵參數與原先的梅爾倒頻譜特徵參數仍然有一定程度的相關。 我們比較了使用不同的訓練目標來訓練多層次感知器,發現當訓練目標集合數過少時,多層次感知器無法正確地學習到該集合的特徵,反之,當多層次感知器的訓練目標集合多時,多層次感知器能夠正確地學習到該集合的特徵。 此外,對於解讀多層次感知器所輸出的事後機率結果,我們也做了詳細的分析。我們發現,多層次感知器所輸出的事後機率彼此之間差異越大,作為隱藏式馬可夫模型辨識時可以得到較高的辨識率,反之當多層次感知器所輸出的事後機率很平均的時候,隱藏式馬可夫模型辨識便無法得到好的結果。另外,在使用一個多層次感知器訓練數個多層次感知器所輸出的事後機率時,第一層多層次感知器所輸出的音框正確率平均值是不重要的,反而是第一層多層次感知器中,具有最高音框辨識率的多層次感知器是最重要的,在後端能不能有更好的效果,端看前端的多層次感知器最高的音框正確率是否夠高。 | zh_TW |
| dc.description.provenance | Made available in DSpace on 2021-06-14T16:54:11Z (GMT). No. of bitstreams: 1 ntu-97-R95921021-1.pdf: 1588840 bytes, checksum: c3a0b78fac24bb599f62db2e0e020ba3 (MD5) Previous issue date: 2008 | en |
| dc.description.tableofcontents | 目錄
口試委員會審定書 # 誌謝中文摘要 i 中文摘要 iii 目錄 iv 圖目錄 vii 表目錄 viii 第 1 章 緒論 1 1.1 研究動機 1 1.2 特徵向量簡介 1 1.2.1 短時域-廣頻譜特徵向量 1 1.2.2 長時域-窄頻譜特徵向量 1 1.3 研究方向及主要成果 2 1.4 章節概要 2 第 2 章 研究背景 3 2.1 梅爾倒頻譜係數 3 2.1.1 預強調(Pre-emphasis) 3 2.1.2 漢明窗 4 2.1.3 離散傅立葉轉換及梅爾濾波器組 4 2.1.4 對數能量 5 2.2 感知線性預測參數(Perceptual Linear Prediction) 5 2.2.1 相等音量預強調(Equal Loudness Pre-emphasis) 6 2.2.2 線性預測(Linear Prediction) 7 2.2.3 臨界頻帶濾波器(Critical Band filters) 8 2.3 隱藏式馬可夫模型語音辨識系統結構 9 2.3.1 馬可夫程序(Markov Process) 9 2.3.2 隱藏式馬可夫模型(Hidden Markov Model) 9 2.3.3 隱藏式馬可夫模型在語音辨識上的應用 10 2.4 主成分分析 11 2.5 本章小結 12 第 3 章 研究方法 13 3.1 長時域特徵參數抽取(TRAPs,Temporal patters feature extraction) 13 3.1.1 基於短時域特徵參數上的時間樣式特徵參數抽取流程 15 3.1.2 直接使用濾波器輸出的時間樣式特徵參數抽取流程 16 3.2 多層次感知器 16 3.2.1 類神經網路(Artificial Neural Network) 16 3.2.2 多層次感知器在語音辨識上之應用 19 3.2.3 多層次感知器實做工具:QuickNet 21 3.3 串接式系統(Tandem system) 22 3.4 本章小節 23 第 4 章 實驗及結果分析 25 4.1 語料介紹 25 4.2 實驗系統設定 25 4.3 基礎實驗 26 4.4 單一特徵參數的串接式系統 27 4.4.1 多層次感知器分類依據的比較 27 4.4.2 使用不同種類特徵參數產生時間樣式特徵參數 28 4.4.3 使用梅爾倒頻譜係數的串接式系統 30 4.5 串接式系統比較實驗 31 4.5.1 結合梅爾倒頻譜特徵參數與使用梅爾倒頻譜特徵參數的時間樣式特徵參數 32 4.5.2 結合感知線性預測特徵參數與使用梅爾倒頻譜特徵參數的時間樣式特徵參數 33 4.6 實驗結果分析 35 4.6.1 多層次感知器輸出所代表的意義 35 4.6.2 結合不同特徵參數的串接式系統 37 第 5 章 結論與展望 39 5.1 結論 39 5.2 展望 39 REFERENCE 41 | |
| dc.language.iso | zh-TW | |
| dc.subject | 長時域特徵參數 | zh_TW |
| dc.subject | 語音辨識 | zh_TW |
| dc.subject | 串接式系統 | zh_TW |
| dc.subject | Tandem System | en |
| dc.subject | Long-term feature | en |
| dc.subject | Speech Recognition | en |
| dc.title | 使用長時域特徵參數的串接式辨識系統 | zh_TW |
| dc.title | Tandem Recognition System based on Long-term Acoustic Features | en |
| dc.type | Thesis | |
| dc.date.schoolyear | 96-2 | |
| dc.description.degree | 碩士 | |
| dc.contributor.oralexamcommittee | 簡仁宗(Jen-Tzung Chien),鄭秋豫(Chiu-yu Tseng),陳信宏(Sin-Horng Chen),王小川(Hsiao-Chuan Wang) | |
| dc.subject.keyword | 語音辨識,串接式系統,長時域特徵參數, | zh_TW |
| dc.subject.keyword | Speech Recognition,Tandem System,Long-term feature, | en |
| dc.relation.page | 41 | |
| dc.rights.note | 有償授權 | |
| dc.date.accepted | 2008-07-30 | |
| dc.contributor.author-college | 電機資訊學院 | zh_TW |
| dc.contributor.author-dept | 電機工程學研究所 | zh_TW |
| 顯示於系所單位: | 電機工程學系 | |
文件中的檔案:
| 檔案 | 大小 | 格式 | |
|---|---|---|---|
| ntu-97-1.pdf 未授權公開取用 | 1.55 MB | Adobe PDF |
系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。
