請用此 Handle URI 來引用此文件:
http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/43698
標題: | 用機器學習整合索引資訊之中文語音文件檢索 Integrating Indexing Information by Machine Learning for Chinese Spoken Document Retrieval |
作者: | Chia-Ming Yang 楊家銘 |
指導教授: | 李琳山(Lin-Shan Lee) |
關鍵字: | 語音,語音文件,語音文件檢索,機器學習,語音文件索引, Speech,Spoken Document Retrieval,Machine Learning,Spoken Document Retrieval Indexing, |
出版年 : | 2011 |
學位: | 碩士 |
摘要: | 語音文件檢索在資訊爆炸的多媒體時代日益重要。大部分的語音文件檢索的
技術包含兩大步驟, 一是自動語音辨識技術, 二是使用辨識後產生的索引資訊 進行檢索。第一個步驟面對的是可能的高辨識錯誤率, 會影響產生的語音文件 索引所攜帶資訊的正確性; 第二個步驟就是如何充分使用這些索引所帶的資訊 並將之發揮到極致。本論文所研究的主題方向屬於上述第二部份, 考慮如何將 中文語音中不同語言單位(例如:詞(Word)、字(Character)、音節(Syllable)、聲韻 母(Initial-Final)等...) 所產生的索引資訊, 透過排序學習(Learning to Rank)的方法 整合起來。 本論文共研究了兩種排序學習(Learning to Rank)的方法︰調適排序(AdaRank)及 針對平均準確率的支撐向量機(Support Vector Machine for Optimizing Mean Average Precision, SVM-map)。 實驗結果顯示, 使用針對平均準確率的支撐向量機的結果是比較好的, 比起調適排序, 最佳的平均準確率均值進步是4.70%; 比起已知個別檢索效能 最佳(Oracle)的索引, 綜合查詢指令進步了8.67%, 其中辭典內查詢詞彙的部份 進步了6.30%, 而辭典外查詢詞彙效果最為明顯, 有約11.63%的直接進步。這 些實驗結果也驗證, 使用不同語言單位所產生的語音文件索引, 透過排序學 習找到適當的對應權重, 予以加成, 可以使得語音文件檢索的效能以及強健 性(Robustness)獲得更進一步的提昇。 |
URI: | http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/43698 |
全文授權: | 有償授權 |
顯示於系所單位: | 資訊工程學系 |
文件中的檔案:
檔案 | 大小 | 格式 | |
---|---|---|---|
ntu-100-1.pdf 目前未授權公開取用 | 2.37 MB | Adobe PDF |
系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。