請用此 Handle URI 來引用此文件:
http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/44979
標題: | 中文名詞組的辨識:規則式判別、監督式、半監督式與非監督式學習法的實驗 Chinese NP Chunking: Experiments with Rule-based Method, Supervised, Semi-supervised and Unsupervised Learning |
作者: | Yen-Hsi Lin 林晏僖 |
指導教授: | 高成炎(Cheng-Yan Kao) |
共同指導教授: | 高照明(Zhao-Ming Gao) |
關鍵字: | 中文名詞組辨識,YamCha,監督式學習法,半監督式學習法,web corpus, Chinese NP chunking,YamCha,supervised-learning,semi-supervised learning,web corpus, |
出版年 : | 2010 |
學位: | 碩士 |
摘要: | 名詞組辨識在自然語言處理中可以說是一個非常關鍵的問題,不同組合的結構、其它詞性的變化、或是結構和字本身的歧義,都大大地影響了名詞組辨識的結果。好的辨識結果可以幫助現今許多和自然語言處理相關的應用,尤其是一些名詞組佔了大多數比例的服務,例如:網路探勘、搜尋引擎等等。但由於中文較其它語言複雜,又缺乏大型標記過的語料,使得中文的名詞辨識做起來更加困難。
最近這幾年,許多自然語言處理的問題,包括詞組辨識,利用所謂的訓練語料配合監督式學習的分類方法解決的文獻紀錄非常多。但是這些文獻中,常存在一些共同待解決的問題,如:訓練語料不足,並且很難在其它文獻中找到提出的改善方式。 本篇論文探討以四種不同方法,辨識中文名詞組。首先參考前人統整好的規則,實做Rule-based 模型,當作一個比較的對象。第二個是監督式學習法(Supervised-learning)的模型:利用Taku Kudo,所提出利用SVM的演算法所作的chunking工具:Yamcha(Yet Another Multipurpose CHunk Annotator),訓練中文名詞組辨識的初始模型,並嘗試以不同於多數文獻中看到的IOB表示法及前二後二位置的語意資訊,找到適用於中文的參數。第三個是基於半監督式學習法(Semi-supervised learning)中自我學習的概念,利用網路上未標記過的資料,強化監督式學習法的半監督式學習法模型。最後一個是個完全利用搜尋引擎得到的未標記過資料(Raw data)等此類網路資源,以及中文本身的語言特徵,所結合而成的未監督式學習法(Unsupervised-learning)的模型。 實驗結果證明,最簡單的Rule-based作法在開放測試的f-rate為0.71,比監督式學習法的0.58高出約0.13;而在監督式學習法(supervised learning)的實驗步驟裡,我們所選用的參數比前人選用的參數做出的模型,在第一階段開放測試中高出了約16個百分比;半監督式學習中,加入unlabeled data這個步驟也的確提昇監督式學習法的效果,在第二個開放測試中的f-rate為78.79%,比監督式學習法高出了約8個百分比,不但保存了分類器的優點,同時提昇中文在名物化現象時有歧義的名詞辨識結果;完全不倚賴分類器的非監督式學習法,在開放測試的f-rate為84.57%,比半監督式學習法高出了17個百分比,從開放測試中看出其具有解決長名詞及名物化動詞的效果。 |
URI: | http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/44979 |
全文授權: | 有償授權 |
顯示於系所單位: | 資訊網路與多媒體研究所 |
文件中的檔案:
檔案 | 大小 | 格式 | |
---|---|---|---|
ntu-99-1.pdf 目前未授權公開取用 | 617.53 kB | Adobe PDF |
系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。