請用此 Handle URI 來引用此文件:
http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/10075
標題: | 中英雙語環境下使用詞群及隨機森林的語言模型調適 Language Model Adaptation for Mandarin-English Code-Mixed Lectures Using Word Classes and Random Forests |
作者: | Chao-Yu Huang 黃昭瑜 |
指導教授: | 李琳山 |
關鍵字: | 語言模型,雙語混合,詞群,隨機森林,語言模型調適, Language Modeling,Code-Mixing,Word Classes,Random Forest,Adaptation, |
出版年 : | 2011 |
學位: | 碩士 |
摘要: | 語言模型在語音辨識中一向扮演著極為重要角色,然而自然語言的語法千變萬化,隨著國際化的風潮,人們日常生活中的語言也由單語轉向雙語或多語,於是雙語混合的語言模型變成一個迫切需要卻又難解的問題。
雖然雙語在現今社會十分流行,但可收集到的雙語語料和單語相較之下仍是九牛一毛,於是在本論文中使用基於詞群之 N 連語言模型來辨識雙語混合語料。藉由同時使用統計學和語言學的方式建立雙語詞群,勾勒出雙語詞彙之間的互動模式,並以此建立語言模型,以補益雙語語料的不足。 基於詞群之 N 連語言模型是將 N 連事後機率中欲估測的歷史詞串和目標詞都加以分群以共享資訊的方法,較為粗糙。相較之下,決策樹語言模型則是僅將歷史詞串分群以共享資訊。同時,可集合眾多的隨機決策樹,假設一棵樹能達到的是區域最佳解,那麼在一片森林中,應會有機會接近全域最佳解,這就是隨機森林語言模型。 為了能夠使用各種背景語料來強化語言模型,本論文亦使用基於隨機森林的語言模型調適法以進行調適。首先使用大量的背景語料來生成隨機決策樹後,再用目標課程的訓練語料來修剪樹,使得經修剪過後的樹能更貼近目標課程,接著集結經由各領域的背景語料而來的許多片隨機森林,形成眾林之林語言模型。和最初未經調適的基礎語言模型相比,其絕對的辨識正確率進步約 1.78%。 |
URI: | http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/10075 |
全文授權: | 同意授權(全球公開) |
顯示於系所單位: | 資訊工程學系 |
文件中的檔案:
檔案 | 大小 | 格式 | |
---|---|---|---|
ntu-100-1.pdf | 2.13 MB | Adobe PDF | 檢視/開啟 |
系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。