Skip navigation

DSpace

機構典藏 DSpace 系統致力於保存各式數位資料(如:文字、圖片、PDF)並使其易於取用。

點此認識 DSpace
DSpace logo
English
中文
  • 瀏覽論文
    • 校院系所
    • 出版年
    • 作者
    • 標題
    • 關鍵字
    • 指導教授
  • 搜尋 TDR
  • 授權 Q&A
    • 我的頁面
    • 接受 E-mail 通知
    • 編輯個人資料
  1. NTU Theses and Dissertations Repository
  2. 電機資訊學院
  3. 電信工程學研究所
請用此 Handle URI 來引用此文件: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/39117
完整後設資料紀錄
DC 欄位值語言
dc.contributor.advisor李琳山(Lin-Shan Lee)
dc.contributor.authorChing-Feng Yehen
dc.contributor.author葉青峰zh_TW
dc.date.accessioned2021-06-13T17:03:01Z-
dc.date.available2011-07-28
dc.date.copyright2011-07-28
dc.date.issued2011
dc.date.submitted2011-07-14
dc.identifier.citation[1] 麻省理工學院, Massachusetts Institute of Technology, http://web.mit.edu/ .
[2] 康乃爾大學, Cornell University, http://www.cornell.edu/ .
[3] Joyce Y. C. Chan, Houwei Cao, P. C. Ching, and Tan Lee, “Automatic Recognition of Cantonese-English Code-Mixing Speech”, ACLCLP, 2009.
[4] C. J. Leggetter and P. C. Woodland, “Maximum likelihood linear regression for speaker adaptation of continuous density hidden Markov models”, Computer Speech and Language, 1995.
[5] C.H. Lee, J.L. Gauvain, “Speaker adaptation based on MAP estimation of HMM parameters”, ICASSP, 1993.
[6] Vergin R., O'Shaughnessy D., Farhat A., “Generalized mel frequency cepstral coefficients for large-vocabulary speaker-independent continuous-speech recognition”, IEEE Transactions on Speech and Audio Processing, 1999.
[7] LawrenceA R. Rabiner, “A Tutorial on Hidden Markov Models and
Selected Applications in Speech Recognition”, Proceedings of the IEEE, 1989.
[8] HTK Speech Recognition Toolkit, http://htk.eng.cam.ac.uj/ .
[9] Tanja Schultz and Alex Waibel, “Language Independent and Language Adaptive Acoustic Modeling for Speech Recognition”, Speech Communication, 2001.
[10] Hui Lin, Li Deng, Jasha Droppo, Dong Yu, and Alex Acero, “Learning Methods in Multilingual Speech Recognition”, NIPS, 2008.
[11] Ching-Feng Yeh, Liang-Che Sun, Chao-Yu Huang and Lin-Shan Lee, “Bilingual Acoustic Modeling with State Mapping and Three-stage Adaptation for Transcribing Unbalanced Code-mixed Lectures”, ICASSP, 2011.
[12] Ching-Feng Yeh, Chao-Yu Huang, Liang-Che Sun, and Lin-Shan Lee, “An Integrated Framework for Transcribing Mandarin-English Code-mixed Lectures with Improved Acoustic and Language Modeling”, ISCSLP, 2010.
[13] Yanmin Qian and Jia Liu, “Phone Modeling and Combining Discriminative Training for Mandarin-English Bilingual Speech Recognition”, ICASSP, 2010.
[14] B. Mak and E. Barnard, “Phone clustering using Bhattacharyya distance”, in Proc. Of ICSLP, vol. 4, pp. 2005-2008, Oct. 1996.
[15] Houwei Cao, Tan Lee and P.C. Ching, “Cross-lingual Speaker Adaptation via Gaussian Component Mapping”, Interspeech, 2010.
[16] Yi-Jian Wu, Simon King and Keiichi Tokuda, “Cross-lingual Speaker Adaptation For HMM-Based Speech Synthesis”, ISCSLP 2008.
[17] CH Lee, JL Gauvain, “Speaker adaptation based on MAP estimation of HMM parameters”, ICASSP, 1993.
[18] C. J. Leggetter and P. C. Woodland, “Maximum likelihood linear regression for speaker adaptation of continuous density hidden Markov models”, Computer Speech and Language, 1995
[19] Peng Xu and Frederick Jelinek, “Random forests in language modeling”, EMNLP, 2004.
[20] Anoop Deoras, Frederick Jelinek and Yi Su, “Language Model Adaptation using Random Forests”, ICASSP, 2010.
[21] Academic Sinica of Taiwan, http://www.sinica.edu.tw/
dc.identifier.urihttp://tdr.lib.ntu.edu.tw/jspui/handle/123456789/39117-
dc.description.abstract由於全球化的趨勢,多語言混合語句早已大量出現在日常語言之中。本論文研究之目標語料為國立台灣大學電資學院課程,具有高度自發性、背景雜訊較高、雙語混合的特色,雖以中文為主要語言,但其間不時夾雜著英語詞彙或片段,但英語遠比中文為少。本論文研究在這樣狀況下的大字彙連續語音辨識。
針對雙語言混合及其高度不平衡之語言分布特性,本論文使用模型單位映射與回復演算法來改善聲學模型,並且探討在隱藏式馬可夫模型架構中,不同單位層級之融合對於辨識效能之影響。本論文所提出之演算法主要可以分為兩階段。第一階段利用接近語者特性之模型計算具語者特色之不同層級之模型單位映射表,並且根據此映射表進行模型融合,以達到跨語言分享參數及語料的目的;第二階段使用模型回復演算法解除模型融合的潛在限制,進一步提升辨識效能。實驗結果證實本論文所提出之演算法能夠有效提升辨識正確率,尤其在客位語言即英語的詞正確率上進步特別明顯。
zh_TW
dc.description.provenanceMade available in DSpace on 2021-06-13T17:03:01Z (GMT). No. of bitstreams: 1
ntu-100-R98942056-1.pdf: 2094393 bytes, checksum: a1a65790417433261c497716a88e88f9 (MD5)
Previous issue date: 2011
en
dc.description.tableofcontents第一章 導論 1
1.1 研究動機 1
1.2 相關研究 1
1.3 研究方法 2
1.4 章節大綱 3
第二章 背景知識 5
2.1 雙語混合(Code-Mixing)之介紹 5
2.2 雙語辨識之基本架構 7
2.2.1 特徵抽取 8
2.2.2 音素集 8
2.2.3 辭典 9
2.2.4 辨識解碼 9
2.2.5 語言模型 10
2.2.6 聲學模型 11
2.3 課程語料辨識之相關研究 11
第三章 基礎雙語聲學模型 13
3.1 基於隱藏式馬可夫模型之聲學模型 13
3.2 語態共享之三連音聲學模型 14
3.3 語者特色聲學模型 16
3.4 語者調適聲學模型 16
3.5 疊加式聲學模型調適法 17
第四章 基礎實驗環境設定與結果 19
4.1 實驗語料與模型參數設定 19
4.1.1 實驗語料 19
4.1.2 訓練與辨識系統工具 20
4.1.3 前端處理 21
4.1.4 聲學模型設定 21
4.1.5 辭典與語言模型設定 21
4.1.6 雙語言辨識率計算 22
4.2 基礎雙語聲學模型實驗結果 22
4.2.1 語者特色聲學模型實驗結果 23
4.2.2 語者調適聲學模型實驗結果 23
4.3 基礎雙語聲學模型實驗結論 24
第五章 基於模型映射之雙語聲學模型 25
5.1 模型映射演算法系統架構 25
5.1.1 基於模型映射之雙語語者特色聲學模型 25
5.1.2 基於模型映射之雙語語者調適聲學模型 27
5.2 不同層級之聲學模型單位距離計算 28
5.2.1 凱氏距離 29
5.2.2 聲學知識限制 30
5.2.3 高斯混合層級聲學距離計算 31
5.2.4 狀態層級聲學距離計算 31
5.2.5 音素層級聲學距離計算 32
5.3 不同層級之聲學模型單位融合法 34
5.3.1 高斯混合層級聲學單位融合法 34
5.3.2 狀態層級聲學單位融合法 36
5.3.3 音素層級聲學單位融合法 36
5.4 基於模型映射之雙語聲學模型實驗結果 36
5.4.1 語者特色聲學模型實驗結果 37
5.4.2 語者調適聲學模型實驗結果 38
5.5 基於模型映射之雙語聲學模型實驗結論 39
第六章 基於模型映射與回復之雙語聲學模型 40
6.1 模型映射與回復演算法系統架構 40
6.1.1 語者特色模型映射與回復系統架構 40
6.1.2 語者調適模型映射與回復系統架構 42
6.2 聲學模型單位回復法 43
6.3 基於模型映射與回復之雙語聲學模型實驗結果 43
6.3.1 語者特色聲學模型實驗結果 44
6.3.2 語者調適聲學模型實驗結果 46
6.4 基於模型映射與回復之雙語聲學模型實驗結論 49
第七章 結論與展望 50
7.1 論文總結 50
7.2 未來展望 51
參考文獻 53
dc.language.isozh-TW
dc.subject單位映射zh_TW
dc.subject模型回復zh_TW
dc.subject雙語混合zh_TW
dc.subject聲學模型zh_TW
dc.subjectUnit Mappingen
dc.subjectModel Recoveryen
dc.subjectAcoustic Modelen
dc.subjectCode-mixeden
dc.title以單位映射與模型回復建立之雙語混合聲學模型zh_TW
dc.titleBilingual Code-Mixed Acoustic Modeling by Unit Mapping and Model Recoveryen
dc.typeThesis
dc.date.schoolyear99-2
dc.description.degree碩士
dc.contributor.oralexamcommittee鄭秋豫(Chiu-Yu Tseng),陳信宏(Sin-Horng Chen),王小川(Hsiao-Chuan Wang),簡文宗(Jen-Tzung Chien)
dc.subject.keyword聲學模型,雙語混合,單位映射,模型回復,zh_TW
dc.subject.keywordAcoustic Model,Code-mixed,Unit Mapping,Model Recovery,en
dc.relation.page54
dc.rights.note有償授權
dc.date.accepted2011-07-14
dc.contributor.author-college電機資訊學院zh_TW
dc.contributor.author-dept電信工程學研究所zh_TW
顯示於系所單位:電信工程學研究所

文件中的檔案:
檔案 大小格式 
ntu-100-1.pdf
  未授權公開取用
2.05 MBAdobe PDF
顯示文件簡單紀錄


系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。

社群連結
聯絡資訊
10617臺北市大安區羅斯福路四段1號
No.1 Sec.4, Roosevelt Rd., Taipei, Taiwan, R.O.C. 106
Tel: (02)33662353
Email: ntuetds@ntu.edu.tw
意見箱
相關連結
館藏目錄
國內圖書館整合查詢 MetaCat
臺大學術典藏 NTU Scholars
臺大圖書館數位典藏館
本站聲明
© NTU Library All Rights Reserved