請用此 Handle URI 來引用此文件:
http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/9277
標題: | 基於機器學習之中文語句分段 Chinese Sentence Segmentation using Machine Learning Methods |
作者: | "Chou, Chien-Yu" 周建宇 |
指導教授: | 李琳山 |
關鍵字: | 語句分段,豐富轉寫,詞彙特徵,韻律特徵,條件隨機域,支撐向量機,調適性推昇法, sentence segmentation,rich transcription,prosody,CRF,SVM,AdaBoost, |
出版年 : | 2009 |
學位: | 碩士 |
摘要: | 豐富轉寫(rich transcription),即對自動語音辨識(ASR)產生的轉寫添加更豐富的資訊,可以幫助理解語音資訊的內容。本論文研究豐富轉寫中的語句分段(speech sentence segmentation),即在未分段的轉寫中自動標出語句段落的技術。近年來各種機器學習模型的快速進步並廣泛使用於數位語音處理領域,本論文的研究方法亦是採用這些新模型。
本論文使用了詞彙特徵(lexical feature)與韻律特徵(prosody feature)作為語句分段之兩大類特徵;比較條件隨機域(CRF),支撐向量機(SVM),調適性推昇法(AdaBoost)三種學習模型在COSPRO與MATBN兩套不同語料庫之表現。 實驗顯示詞彙特徵與韻律特徵彼此有互補的效果。使用條件隨機域為學習模型時以K–平均聚集法(K–means clustering)聚集韻律特徵的表現會比均分K 等分聚集好,使F-測量(F-measure)進步約1%;使用支撐向量機為學習模型在資料不平衡的情況下時,須設法降低不平衡的影響,使F-測量進步約5%。 實驗顯示在乾淨的朗讀式語料庫COSPRO中,支撐向量機表現最好,達到0.852 的F-測量;而在有雜訊的新聞語料庫MATBN中,條件隨機域表現最好,達到0.750 的F-測量,而調適性推昇法的F-測量在兩套語料庫中都居於中間。實驗並比較三種學習模型的接受器操作特性曲線(receiver operating curve, ROC curve)。與F-測量的趨勢一致。 |
URI: | http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/9277 |
全文授權: | 同意授權(全球公開) |
顯示於系所單位: | 電信工程學研究所 |
文件中的檔案:
檔案 | 大小 | 格式 | |
---|---|---|---|
ntu-98-1.pdf | 2.87 MB | Adobe PDF | 檢視/開啟 |
系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。