以單位映射與模型回復建立之雙語混合聲學模型

Ching-Feng Yeh; 葉青峰

請用此 Handle URI 來引用此文件： http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/39117

完整後設資料紀錄

DC 欄位	值	語言
dc.contributor.advisor	李琳山(Lin-Shan Lee)
dc.contributor.author	Ching-Feng Yeh	en
dc.contributor.author	葉青峰	zh_TW
dc.date.accessioned	2021-06-13T17:03:01Z	-
dc.date.available	2011-07-28
dc.date.copyright	2011-07-28
dc.date.issued	2011
dc.date.submitted	2011-07-14
dc.identifier.citation	[1] 麻省理工學院, Massachusetts Institute of Technology, http://web.mit.edu/ . [2] 康乃爾大學, Cornell University, http://www.cornell.edu/ . [3] Joyce Y. C. Chan, Houwei Cao, P. C. Ching, and Tan Lee, “Automatic Recognition of Cantonese-English Code-Mixing Speech”, ACLCLP, 2009. [4] C. J. Leggetter and P. C. Woodland, “Maximum likelihood linear regression for speaker adaptation of continuous density hidden Markov models”, Computer Speech and Language, 1995. [5] C.H. Lee, J.L. Gauvain, “Speaker adaptation based on MAP estimation of HMM parameters”, ICASSP, 1993. [6] Vergin R., O'Shaughnessy D., Farhat A., “Generalized mel frequency cepstral coefficients for large-vocabulary speaker-independent continuous-speech recognition”, IEEE Transactions on Speech and Audio Processing, 1999. [7] LawrenceA R. Rabiner, “A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition”, Proceedings of the IEEE, 1989. [8] HTK Speech Recognition Toolkit, http://htk.eng.cam.ac.uj/ . [9] Tanja Schultz and Alex Waibel, “Language Independent and Language Adaptive Acoustic Modeling for Speech Recognition”, Speech Communication, 2001. [10] Hui Lin, Li Deng, Jasha Droppo, Dong Yu, and Alex Acero, “Learning Methods in Multilingual Speech Recognition”, NIPS, 2008. [11] Ching-Feng Yeh, Liang-Che Sun, Chao-Yu Huang and Lin-Shan Lee, “Bilingual Acoustic Modeling with State Mapping and Three-stage Adaptation for Transcribing Unbalanced Code-mixed Lectures”, ICASSP, 2011. [12] Ching-Feng Yeh, Chao-Yu Huang, Liang-Che Sun, and Lin-Shan Lee, “An Integrated Framework for Transcribing Mandarin-English Code-mixed Lectures with Improved Acoustic and Language Modeling”, ISCSLP, 2010. [13] Yanmin Qian and Jia Liu, “Phone Modeling and Combining Discriminative Training for Mandarin-English Bilingual Speech Recognition”, ICASSP, 2010. [14] B. Mak and E. Barnard, “Phone clustering using Bhattacharyya distance”, in Proc. Of ICSLP, vol. 4, pp. 2005-2008, Oct. 1996. [15] Houwei Cao, Tan Lee and P.C. Ching, “Cross-lingual Speaker Adaptation via Gaussian Component Mapping”, Interspeech, 2010. [16] Yi-Jian Wu, Simon King and Keiichi Tokuda, “Cross-lingual Speaker Adaptation For HMM-Based Speech Synthesis”, ISCSLP 2008. [17] CH Lee, JL Gauvain, “Speaker adaptation based on MAP estimation of HMM parameters”, ICASSP, 1993. [18] C. J. Leggetter and P. C. Woodland, “Maximum likelihood linear regression for speaker adaptation of continuous density hidden Markov models”, Computer Speech and Language, 1995 [19] Peng Xu and Frederick Jelinek, “Random forests in language modeling”, EMNLP, 2004. [20] Anoop Deoras, Frederick Jelinek and Yi Su, “Language Model Adaptation using Random Forests”, ICASSP, 2010. [21] Academic Sinica of Taiwan, http://www.sinica.edu.tw/
dc.identifier.uri	http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/39117	-
dc.description.abstract	由於全球化的趨勢，多語言混合語句早已大量出現在日常語言之中。本論文研究之目標語料為國立台灣大學電資學院課程，具有高度自發性、背景雜訊較高、雙語混合的特色，雖以中文為主要語言，但其間不時夾雜著英語詞彙或片段，但英語遠比中文為少。本論文研究在這樣狀況下的大字彙連續語音辨識。針對雙語言混合及其高度不平衡之語言分布特性，本論文使用模型單位映射與回復演算法來改善聲學模型，並且探討在隱藏式馬可夫模型架構中，不同單位層級之融合對於辨識效能之影響。本論文所提出之演算法主要可以分為兩階段。第一階段利用接近語者特性之模型計算具語者特色之不同層級之模型單位映射表，並且根據此映射表進行模型融合，以達到跨語言分享參數及語料的目的；第二階段使用模型回復演算法解除模型融合的潛在限制，進一步提升辨識效能。實驗結果證實本論文所提出之演算法能夠有效提升辨識正確率，尤其在客位語言即英語的詞正確率上進步特別明顯。	zh_TW
dc.description.provenance	Made available in DSpace on 2021-06-13T17:03:01Z (GMT). No. of bitstreams: 1 ntu-100-R98942056-1.pdf: 2094393 bytes, checksum: a1a65790417433261c497716a88e88f9 (MD5) Previous issue date: 2011	en
dc.description.tableofcontents	第一章導論 1 1.1 研究動機 1 1.2 相關研究 1 1.3 研究方法 2 1.4 章節大綱 3 第二章背景知識 5 2.1 雙語混合(Code-Mixing)之介紹 5 2.2 雙語辨識之基本架構 7 2.2.1 特徵抽取 8 2.2.2 音素集 8 2.2.3 辭典 9 2.2.4 辨識解碼 9 2.2.5 語言模型 10 2.2.6 聲學模型 11 2.3 課程語料辨識之相關研究 11 第三章基礎雙語聲學模型 13 3.1 基於隱藏式馬可夫模型之聲學模型 13 3.2 語態共享之三連音聲學模型 14 3.3 語者特色聲學模型 16 3.4 語者調適聲學模型 16 3.5 疊加式聲學模型調適法 17 第四章基礎實驗環境設定與結果 19 4.1 實驗語料與模型參數設定 19 4.1.1 實驗語料 19 4.1.2 訓練與辨識系統工具 20 4.1.3 前端處理 21 4.1.4 聲學模型設定 21 4.1.5 辭典與語言模型設定 21 4.1.6 雙語言辨識率計算 22 4.2 基礎雙語聲學模型實驗結果 22 4.2.1 語者特色聲學模型實驗結果 23 4.2.2 語者調適聲學模型實驗結果 23 4.3 基礎雙語聲學模型實驗結論 24 第五章基於模型映射之雙語聲學模型 25 5.1 模型映射演算法系統架構 25 5.1.1 基於模型映射之雙語語者特色聲學模型 25 5.1.2 基於模型映射之雙語語者調適聲學模型 27 5.2 不同層級之聲學模型單位距離計算 28 5.2.1 凱氏距離 29 5.2.2 聲學知識限制 30 5.2.3 高斯混合層級聲學距離計算 31 5.2.4 狀態層級聲學距離計算 31 5.2.5 音素層級聲學距離計算 32 5.3 不同層級之聲學模型單位融合法 34 5.3.1 高斯混合層級聲學單位融合法 34 5.3.2 狀態層級聲學單位融合法 36 5.3.3 音素層級聲學單位融合法 36 5.4 基於模型映射之雙語聲學模型實驗結果 36 5.4.1 語者特色聲學模型實驗結果 37 5.4.2 語者調適聲學模型實驗結果 38 5.5 基於模型映射之雙語聲學模型實驗結論 39 第六章基於模型映射與回復之雙語聲學模型 40 6.1 模型映射與回復演算法系統架構 40 6.1.1 語者特色模型映射與回復系統架構 40 6.1.2 語者調適模型映射與回復系統架構 42 6.2 聲學模型單位回復法 43 6.3 基於模型映射與回復之雙語聲學模型實驗結果 43 6.3.1 語者特色聲學模型實驗結果 44 6.3.2 語者調適聲學模型實驗結果 46 6.4 基於模型映射與回復之雙語聲學模型實驗結論 49 第七章結論與展望 50 7.1 論文總結 50 7.2 未來展望 51 參考文獻 53
dc.language.iso	zh-TW
dc.subject	單位映射	zh_TW
dc.subject	模型回復	zh_TW
dc.subject	雙語混合	zh_TW
dc.subject	聲學模型	zh_TW
dc.subject	Unit Mapping	en
dc.subject	Model Recovery	en
dc.subject	Acoustic Model	en
dc.subject	Code-mixed	en
dc.title	以單位映射與模型回復建立之雙語混合聲學模型	zh_TW
dc.title	Bilingual Code-Mixed Acoustic Modeling by Unit Mapping and Model Recovery	en
dc.type	Thesis
dc.date.schoolyear	99-2
dc.description.degree	碩士
dc.contributor.oralexamcommittee	鄭秋豫(Chiu-Yu Tseng),陳信宏(Sin-Horng Chen),王小川(Hsiao-Chuan Wang),簡文宗(Jen-Tzung Chien)
dc.subject.keyword	聲學模型,雙語混合,單位映射,模型回復,	zh_TW
dc.subject.keyword	Acoustic Model,Code-mixed,Unit Mapping,Model Recovery,	en
dc.relation.page	54
dc.rights.note	有償授權
dc.date.accepted	2011-07-14
dc.contributor.author-college	電機資訊學院	zh_TW
dc.contributor.author-dept	電信工程學研究所	zh_TW
顯示於系所單位：	電信工程學研究所

文件中的檔案：

檔案	大小	格式
ntu-100-1.pdf 未授權公開取用	2.05 MB	Adobe PDF

顯示文件簡單紀錄

系統中的文件，除了特別指名其著作權條款之外，均受到著作權保護，並且保留所有的權利。