Skip navigation

DSpace JSPUI

DSpace preserves and enables easy and open access to all types of digital content including text, images, moving images, mpegs and data sets

Learn More
DSpace logo
English
中文
  • Browse
    • Communities
      & Collections
    • Publication Year
    • Author
    • Title
    • Subject
    • Advisor
  • Search TDR
  • Rights Q&A
    • My Page
    • Receive email
      updates
    • Edit Profile
  1. NTU Theses and Dissertations Repository
  2. 電機資訊學院
  3. 資訊網路與多媒體研究所
Please use this identifier to cite or link to this item: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/44979
Title: 中文名詞組的辨識:規則式判別、監督式、半監督式與非監督式學習法的實驗
Chinese NP Chunking: Experiments with Rule-based Method, Supervised, Semi-supervised and Unsupervised Learning
Authors: Yen-Hsi Lin
林晏僖
Advisor: 高成炎(Cheng-Yan Kao)
Co-Advisor: 高照明(Zhao-Ming Gao)
Keyword: 中文名詞組辨識,YamCha,監督式學習法,半監督式學習法,web corpus,
Chinese NP chunking,YamCha,supervised-learning,semi-supervised learning,web corpus,
Publication Year : 2010
Degree: 碩士
Abstract: 名詞組辨識在自然語言處理中可以說是一個非常關鍵的問題,不同組合的結構、其它詞性的變化、或是結構和字本身的歧義,都大大地影響了名詞組辨識的結果。好的辨識結果可以幫助現今許多和自然語言處理相關的應用,尤其是一些名詞組佔了大多數比例的服務,例如:網路探勘、搜尋引擎等等。但由於中文較其它語言複雜,又缺乏大型標記過的語料,使得中文的名詞辨識做起來更加困難。
最近這幾年,許多自然語言處理的問題,包括詞組辨識,利用所謂的訓練語料配合監督式學習的分類方法解決的文獻紀錄非常多。但是這些文獻中,常存在一些共同待解決的問題,如:訓練語料不足,並且很難在其它文獻中找到提出的改善方式。
本篇論文探討以四種不同方法,辨識中文名詞組。首先參考前人統整好的規則,實做Rule-based 模型,當作一個比較的對象。第二個是監督式學習法(Supervised-learning)的模型:利用Taku Kudo,所提出利用SVM的演算法所作的chunking工具:Yamcha(Yet Another Multipurpose CHunk Annotator),訓練中文名詞組辨識的初始模型,並嘗試以不同於多數文獻中看到的IOB表示法及前二後二位置的語意資訊,找到適用於中文的參數。第三個是基於半監督式學習法(Semi-supervised learning)中自我學習的概念,利用網路上未標記過的資料,強化監督式學習法的半監督式學習法模型。最後一個是個完全利用搜尋引擎得到的未標記過資料(Raw data)等此類網路資源,以及中文本身的語言特徵,所結合而成的未監督式學習法(Unsupervised-learning)的模型。
實驗結果證明,最簡單的Rule-based作法在開放測試的f-rate為0.71,比監督式學習法的0.58高出約0.13;而在監督式學習法(supervised learning)的實驗步驟裡,我們所選用的參數比前人選用的參數做出的模型,在第一階段開放測試中高出了約16個百分比;半監督式學習中,加入unlabeled data這個步驟也的確提昇監督式學習法的效果,在第二個開放測試中的f-rate為78.79%,比監督式學習法高出了約8個百分比,不但保存了分類器的優點,同時提昇中文在名物化現象時有歧義的名詞辨識結果;完全不倚賴分類器的非監督式學習法,在開放測試的f-rate為84.57%,比半監督式學習法高出了17個百分比,從開放測試中看出其具有解決長名詞及名物化動詞的效果。
URI: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/44979
Fulltext Rights: 有償授權
Appears in Collections:資訊網路與多媒體研究所

Files in This Item:
File SizeFormat 
ntu-99-1.pdf
  Restricted Access
617.53 kBAdobe PDF
Show full item record


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

社群連結
聯絡資訊
10617臺北市大安區羅斯福路四段1號
No.1 Sec.4, Roosevelt Rd., Taipei, Taiwan, R.O.C. 106
Tel: (02)33662353
Email: ntuetds@ntu.edu.tw
意見箱
相關連結
館藏目錄
國內圖書館整合查詢 MetaCat
臺大學術典藏 NTU Scholars
臺大圖書館數位典藏館
本站聲明
© NTU Library All Rights Reserved