請用此 Handle URI 來引用此文件:
http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/10075完整後設資料紀錄
| DC 欄位 | 值 | 語言 |
|---|---|---|
| dc.contributor.advisor | 李琳山 | |
| dc.contributor.author | Chao-Yu Huang | en |
| dc.contributor.author | 黃昭瑜 | zh_TW |
| dc.date.accessioned | 2021-05-20T21:00:07Z | - |
| dc.date.available | 2011-07-27 | |
| dc.date.available | 2021-05-20T21:00:07Z | - |
| dc.date.copyright | 2011-07-27 | |
| dc.date.issued | 2011 | |
| dc.date.submitted | 2011-07-22 | |
| dc.identifier.citation | [1] “iTunes U - Learn anything, anywhere, anytime,” http://www.apple.com/education/itunes-u.
[2] James Glass, Timothy J. Hazen, Lee Hetherington, and Chao Wang, “Analysis and processing of lecture audio data: Preliminary investigations,” in HLT-NAACL Speech Indexing and Retrieval Workshop, 2004. [3] A. Park, T. J. Hazen, and J. R. Glass, “Automatic processing of audio lectures for information retrieval: Vocabulary selection and language modeling,” in ICASSP, 2005. [4] J. R. Glass, T. J. Hazen, S. Cyphers, I. Malioutov, D. Huynh, and R. Barzilay, “Recent progress in the MIT spoken lecture processing project,” in Interspeech, 2007, pp. 2553–2556. [5] S. Mukhopadhyay, B. Smith, “Passive capture and structuring of lectures,” in Proceedings of the ACM International Conference on Multimedia, 1999, pp. 477–487. [6] Y.C. Chan, P.C. Ching, T. Lee and H. Cao, “Automatic speech recognition of Cantonese-English code-mixing utterances,” in Interspeech, 2006. [7] T.-L. Tsai, C.-Y. Chiang, H.-M. Yu, L.-S. Lo, Y.-R. Wang, and S.-H. Chen, “A study on Hakka and mixed Hakka-Mandarin speech recognition,” in ISCSLP, 2010. [8] P. F. Brown, V. J. Della Pietra, P. V. deSouza, J. C. Lai, and R. L. Mercer, “Classbased n-gram models of natural language,” in Computational Linguistics, 1992, vol. 18, pp. 467–479. [9] F. Jelinek, “Up from trigrams! The struggle for improved language models,” in EUROSPEECH, 1991, p. 1037–1040. [10] R. A. Solsona, E. Fosler-Lussier, H.-K. J. Kuo, A. Potamianos, and I. Zitouni, “Adaptive language models for spoken dialogue systems,” in ICASSP, 2002. [11] R. Kneser and H. Ney, “Improved backing-off for m-gram language modeling,” in ICASSP, 1995. [12] S. F. Chen, J. Goodman, “An empirical study of smoothing techniques for language modeling,” in Association for Computational Linguistics, 1996. [13] P. Xu and F. Jelinek, “Random forests in language modeling,” in EMNLP, 2004. [14] S. Martin, J. Liermann, and H. Ney, “Algorithms for bigram and trigram wordclustering,” in Speech Communication, 1998, vol. 24, pp. 19–37. [15] A.Deoras,F.Jelinek,andY.Su,“Languagemodeladaptationusingrandomforests,” in ICASSP, 2010. [16] I. Oparin, L. Lamel, and J.-L. Gauvain, “Improving Mandarin Chinese STT system with random forests language models,” in ISCSLP, 2010. [17] S. N. Sridhar and K. K. Sridhar, “The syntax and psycholinguistics of bilingual codemixing,” in Canadian Journal of Psychology 34(4), 1980. [18] P. Li, “Spoken word recognition of code-switched words by Chinese-English bilinguals,” in Journal of Memory and Language, 1996. [19] D.-C. Lyu, R.-Y. Lyu, “Language identification on code-switching utterances using multiple cues,” in Interspeech, 2008. [20] D.-C. Lyu, R.-Y. Lyu, Y.-C. Chiang, and C.-N. Hsu, “Speech recognition on code-switching among the Chinese Dialects,” in ICASSP, 2006. [21] R. Lejeune, J. Baude, C. Tchong, H. Crepy, and C. Waast-Richard, “Flavoured acoustic model and combined spelling to sound for asymmetrical bilingual environment,” in Interspeech, 2005. [22] M.-R. Wu, “Initial study on Chinese/English bilingual speech recognition based on lecture recording,” in M.S. thesis, NTU, 2007. [23] F. Jelinek and R. L. Mercer, “Interpolated estimation of Markov source parameters from sparse data,” in Workshop Pattern Recognition in Practice, 1980. [24] I. Good, “The population frequencies of species and the estimation of population parameters,” in Biometrika, 1953, vol. 40, pp. 237–264. [25] S. M. Katz, “Estimation of probabilities from sparse data for the language model component of a speech recognizer,” in IEEE Transactions on Acoustics, Speech, and Signal Process-35, no.3, 1987, pp. 400–401. [26] “Yahoo! Kimo News portal,” http://tw.news.yahoo.com. [27] “Plurk,” http://www.plurk.com. [28] S.-P. Liao, “Enhanced Language Modeling for Chinese Speech Recognition,” in M.S. thesis, NTU, 2003. [29] A. Stolcke, “SRILM-An extensible language modeling toolkit,” in ICSLP, 2002. [30] T.R. Niesler, E.W.D. Whittaker and P.C. Woodland, “Comparison of part-of-speech and automatically derived category-based language models for speech recognition,” in ICASSP, 1998. [31] “Academia Sinica, Part-of-Speech Tagger,” http://ckipsvr.iis.sinica. edu.tw. [32] C.-F. Yeh, C.-Y. Huang, L.-C. Sun, and L.-S. Lee, “An Integrated Framework for Transcribing Mandarin-English Code-mixed Lectures with Improved Acoustic and Language Modeling,” in ISCSLP, 2010. [33] G. Potamianos and F. Jelinek, “A study of n-gram and decision tree letter language modeling methods,” in Speech Communication, 1998, vol. 24(3), pp. 171–192. [34] Yi Su, “Random forest language model toolkit,” http://www.clsp.jhu. edu/ ̃yisu/rflm.html. [35] X. Liu, W. J. Byrne, M. J. F. Gales, and P. C. Woodland, “Discriminative language model adaptation for Mandarin broadcast speech transcription and translation,” in ASRU, 2007. [36] X. Liu, M. J. F. Gales, and P. C. Woodland, “Context dependent language model adaptation,” in Interspeech, 2008. [37] X. Liu, M. J. F. Gales, and P. C. Woodland, “Use of contexts in language model interpolation and adaptation,” in Interspeech, 2009. [38] C.-F. Yeh, “Bilingual code-mixed acoustic modeling by unit mapping and model recovery,” in M.S. thesis, NTU, 2011. | |
| dc.identifier.uri | http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/10075 | - |
| dc.description.abstract | 語言模型在語音辨識中一向扮演著極為重要角色,然而自然語言的語法千變萬化,隨著國際化的風潮,人們日常生活中的語言也由單語轉向雙語或多語,於是雙語混合的語言模型變成一個迫切需要卻又難解的問題。
雖然雙語在現今社會十分流行,但可收集到的雙語語料和單語相較之下仍是九牛一毛,於是在本論文中使用基於詞群之 N 連語言模型來辨識雙語混合語料。藉由同時使用統計學和語言學的方式建立雙語詞群,勾勒出雙語詞彙之間的互動模式,並以此建立語言模型,以補益雙語語料的不足。 基於詞群之 N 連語言模型是將 N 連事後機率中欲估測的歷史詞串和目標詞都加以分群以共享資訊的方法,較為粗糙。相較之下,決策樹語言模型則是僅將歷史詞串分群以共享資訊。同時,可集合眾多的隨機決策樹,假設一棵樹能達到的是區域最佳解,那麼在一片森林中,應會有機會接近全域最佳解,這就是隨機森林語言模型。 為了能夠使用各種背景語料來強化語言模型,本論文亦使用基於隨機森林的語言模型調適法以進行調適。首先使用大量的背景語料來生成隨機決策樹後,再用目標課程的訓練語料來修剪樹,使得經修剪過後的樹能更貼近目標課程,接著集結經由各領域的背景語料而來的許多片隨機森林,形成眾林之林語言模型。和最初未經調適的基礎語言模型相比,其絕對的辨識正確率進步約 1.78%。 | zh_TW |
| dc.description.provenance | Made available in DSpace on 2021-05-20T21:00:07Z (GMT). No. of bitstreams: 1 ntu-100-R98922053-1.pdf: 2183855 bytes, checksum: 1fca1c6a41e8ae79eb080635af419b4d (MD5) Previous issue date: 2011 | en |
| dc.description.tableofcontents | Contents
口試委員會審定書........................................... i 誌謝...................................................... ii 中文摘要................................................. iii 一、導論................................................... 1 1.1 研究動機............................................. 1 1.2 相關研究............................................. 2 1.3 主要研究方法及成果................................... 3 1.4 章節安排............................................. 4 二、理論背景與實驗環境介紹................................. 5 2.1 雙語混合(code-mixing)的介紹.......................... 5 2.1.1 語言差異......................................... 6 2.1.2 語言借用......................................... 6 2.1.3 雙語混合的課程語料............................... 7 2.2 雙語大字彙連續語音辨識系統簡介....................... 8 2.2.1 特徵抽取......................................... 9 2.2.2 音素集........................................... 9 2.2.3 辭典............................................ 10 2.2.4 辨識解碼........................................ 11 2.3 統計式語言模型...................................... 12 2.3.1 N連語言模型..................................... 14 2.3.2 統計式語言模型的平滑化.......................... 15 2.3.3 混淆度.......................................... 16 2.4 實驗環境............................................ 17 2.4.1 辭典............................................ 17 2.4.2 語料庫.......................................... 18 2.4.3 語音辨識系統.................................... 20 2.5 本章總結............................................ 21 三、基於詞群之雙語語言模型................................ 22 3.1 基於詞群之N連語言模型............................... 22 3.2 詞群分群演算法...................................... 24 3.2.1 以平均相互資訊最大化為基準...................... 24 3.2.2 以詞性標記為基準................................ 26 3.2.3 以複合詞性標記為基準............................ 28 3.3 使用線性內差法強化語言模型.......................... 30 3.4 實驗結果與比較...................................... 31 3.4.1 基於詞群之模型-以平均相互資訊最大化為基準....... 31 3.4.2 基於詞群之模型-以詞性標記為基準................. 33 3.4.3 基於詞群之模型-以複合詞性標記為基準............. 35 3.5 本章總結............................................ 37 四、隨機森林語言模型...................................... 38 4.1 決策樹語言模型...................................... 38 4.1.1 決策樹生長(growing)演算法....................... 40 4.1.2 決策樹修剪(pruning)演算法....................... 44 4.2 隨機森林語言模型.................................... 45 4.2.1 隨機決策樹...................................... 45 4.2.2 由樹而林........................................ 46 4.3 實驗結果與比較...................................... 47 4.4 本章總結............................................ 49 五、強健性語言模型調適.................................... 50 5.1 語言模型調適法...................................... 50 5.2 基於隨機森林的語言模型調適法........................ 51 5.2.1 隨機森林語言模型調適法.......................... 51 5.2.2 眾林之林語言模型調適法.......................... 52 5.3 實驗結果與比較...................................... 54 5.3.1 串接所有語料並以其直接訓練模型.................. 54 5.3.2 模型內差調適法.................................. 55 5.3.3 隨機森林語言模型調適法.......................... 56 5.3.4 眾林之林語言模型調適法.......................... 57 5.4 本章總結............................................ 59 六、結論與展望............................................ 60 6.1 總結與討論...................................... 60 6.2 雙語混和課程系統中最好的聲學及語言模型.......... 62 6.3 未來展望........................................ 63 參考文獻.................................................. 64 圖目錄 2.1 中英雙語混合辨識流程圖. . . . . . . . . . . . . . . . . . . . . . . . 8 3.1 詞和詞群之間的轉換對應關係. . . . . . . . . . . . . . . . . . . . . . 23 3.2 將各種根據不同分群演算法的基於詞群之模型和 N 連模型之間做等權重之線性內差以強化模型。. . . . . . . . . . . . . . . . . . . . 31 4.1 決策樹 Φ_{DT},將表4.1 中的歷史詞串分群以共享機率分佈. . . . . . 39 5.1 隨機森林語言模型調適法. . . . . . . . . . . . . . . . . . . . . . . . 52 5.2 眾林之林語言模型調適法. . . . . . . . . . . . . . . . . . . . . . . . 53 6.1 各語言模型之辨識總正確率(%) . . . . . . . . . . . . . . . . . . . . . 61 表目錄 2.1 中英文音素集:中英文音素分別以'CH'及'EN'開頭以識之. . . . . 10 2.2 課程系統中辭典的中英文詞數及比例. . . . . . . . . . . . . . . . . . 17 2.3 各種文字語料的句數及中英文詞數分佈. . . . . . . . . . . . . . . . 20 3.1 部分複合詞性及其在訓練集中所包含詞以及出現次數的資訊. . . . 29 3.2 「數位語音訊號處理」基於詞群之模型實驗結果1:使用平均相互資訊為基準. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 3.3 「信號與系統」基於詞群之模型實驗結果1:使用平均相互資訊為基準. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 3.4 「數位語音訊號處理」基於詞群之模型實驗結果2:使用詞性標記為基準. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 3.5 「信號與系統」基於詞群之模型實驗結果2:使用詞性標記為基準. 35 3.6 「數位語音訊號處理」基於詞群之模型實驗結果3:使用複合詞性標記為基準. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 3.7 「信號與系統」基於詞群之模型實驗結果3:使用複合詞性標記為基準. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 4.1 某虛擬訓練集,及其所包含的歷史詞串和w_{i-2}^i 的出現次數. . . . . . 39 4.2 歷史詞串中的詞與欲預測的詞 w_i 之間的距離. . . . . . . . . . . . . 41 4.3 「數位語音訊號處理」隨機森林語言模型實驗結果. . . . . . . . . . 48 4.4 「信號與系統」隨機森林語言模型實驗結果. . . . . . . . . . . . . . 48 5.1 調適課程系統時所使用的語料. . . . . . . . . . . . . . . . . . . . . . 54 5.2 「數位語音訊號處理」語言模型調適實驗結果1:串接所有語料並以其直接訓練模型. . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 5.3 「信號與系統」語言模型調適實驗結果1:串接所有語料並以其直接訓練模型. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 5.4 「數位語音訊號處理」語言模型調適實驗結果2:使用模型內差法調適語言模型. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 5.5 「信號與系統」語言模型調適實驗結果2:使用模型內差法調適語言模型. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 5.6 「數位語音訊號處理」語言模型調適實驗結果3:使用隨機森林語言模型調適法。. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 5.7 「信號與系統」語言模型調適實驗結果3:使用隨機森林語言模型調適法. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 5.8 「數位語音訊號處理」語言模型調適實驗結果4:使用眾林之林模型調適法. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 5.9 「信號與系統」語言模型調適實驗結果4:使用眾林之林模型調適法. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 6.1 各語言模型之辨識總正確率(%) . . . . . . . . . . . . . . . . . . . . . 61 6.2 雙語混和課程系統實驗結果:使用眾林之林語言模型調適法及最好的聲學模型:語者調適模型及語者特定模型。. . . . . . . . . . . . 62 | |
| dc.language.iso | zh-TW | |
| dc.title | 中英雙語環境下使用詞群及隨機森林的語言模型調適 | zh_TW |
| dc.title | Language Model Adaptation for Mandarin-English Code-Mixed Lectures Using Word Classes and Random Forests | en |
| dc.type | Thesis | |
| dc.date.schoolyear | 99-2 | |
| dc.description.degree | 碩士 | |
| dc.contributor.oralexamcommittee | 鄭秋豫,陳信宏,王小川,簡仁宗 | |
| dc.subject.keyword | 語言模型,雙語混合,詞群,隨機森林,語言模型調適, | zh_TW |
| dc.subject.keyword | Language Modeling,Code-Mixing,Word Classes,Random Forest,Adaptation, | en |
| dc.relation.page | 67 | |
| dc.rights.note | 同意授權(全球公開) | |
| dc.date.accepted | 2011-07-22 | |
| dc.contributor.author-college | 電機資訊學院 | zh_TW |
| dc.contributor.author-dept | 資訊工程學研究所 | zh_TW |
| 顯示於系所單位: | 資訊工程學系 | |
文件中的檔案:
| 檔案 | 大小 | 格式 | |
|---|---|---|---|
| ntu-100-1.pdf | 2.13 MB | Adobe PDF | 檢視/開啟 |
系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。
