Skip navigation

DSpace

機構典藏 DSpace 系統致力於保存各式數位資料(如:文字、圖片、PDF)並使其易於取用。

點此認識 DSpace
DSpace logo
English
中文
  • 瀏覽論文
    • 校院系所
    • 出版年
    • 作者
    • 標題
    • 關鍵字
    • 指導教授
  • 搜尋 TDR
  • 授權 Q&A
    • 我的頁面
    • 接受 E-mail 通知
    • 編輯個人資料
  1. NTU Theses and Dissertations Repository
  2. 電機資訊學院
  3. 資訊工程學系
請用此 Handle URI 來引用此文件: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/31778
完整後設資料紀錄
DC 欄位值語言
dc.contributor.advisor李琳山
dc.contributor.authorChien-Chih Wangen
dc.contributor.author王建智zh_TW
dc.date.accessioned2021-06-13T03:19:58Z-
dc.date.available2006-07-31
dc.date.copyright2006-07-31
dc.date.issued2006
dc.date.submitted2006-07-27
dc.identifier.citation[1] Michael Witbrock and Vibhu Mittal, “Ultra Summarization: A Statistical Approach to Generating Highly Condensed Non-Extractive Summaries,” Proc. SIGIR, 1999.
[2] Stephen Wan, Mark Dras, Cecile Paris and Robert Dale, “Using Thematic Information in Statistical Headline Generation,” Proc. ACL, 2003.
[3] Michele Banko, Vibhu Mittal and Michael Witbrock, “Headline Generation Based on Statistical Translation,“ Proc. ACL, 2000.
[4] Rong Jin and Alex G. Hauptmann, “Title Generation for Spoken Broadcast News Using a Training Corpus,” Proc. ICSLP, 2000.
[5] Bonnie Dorr, David Zajic and Richard Schwartz, “Hedge Trimmer: A Parse-and-Trim approach to Headline Generation,” Proc. ACL, 2003.
[6] Liang Zhou and Eduard Hovy, “Template-Filtered Headline Summarization,” Proc. ACL, 2004.
[7] Shun-Chuan Chen and Lin-Shan Lee, “Automatic Title Generation for Chinese Spoken Documents Using an Adaptive K Nearest-Neighbor approach, ”Proc. EUROSPEECH, 2003.
[8] Rong Jin and Alex G. Hauptmann, “A New Probabilistic Model for Title Generation,” Proc. COLING, 2002.
[9] Yi-cheng Pank, Yu-ying Liu and Lin-shan Lee, “Named Entity Recognition from Spoken Documents Using Global Evidences and External Knowledge Sources with Applications on Mandarin Chinese,” Proc. ASRU, 2005.
[10] Sheng-yi Kong and Lin-shan Lee, “Improved Spoken Document Summarization Using Probabilistic Latent Semantic Analysis(PLSA),” Proc. ICASSP, 2006.
[11] Thomas Hofmann, “Probabilistic Latent Semantic Analysis,” Proceeding of ACM SIGIR, 1999.
[12] A. P. Dempster, N. M. Laird, and D. B. Robin, “Maximum Likelihood from Incomplete Data via the EM Algorithm,” Journal of Royal Statist., 1977.
[13] Ya-chao Hsieh, Yu-tsun Huang, Chien-chih Wang, and Lin-shan Lee, “Improved Spoken Document Retrieval with Dynamic Key Term Lexicon and Probabilistic Latent Semantic Analysis (PLSA),” ICASSP, 2006.
[14] S. Furui, T. Kikuchi, Y. Shinnaka, and C. Hori, “Speech-to-text and Speech-to-Speech Summarization of Spontaneous Speech,” IEEE Trans. on Speech and Audio Processing, vol.12, no.4, pp. 401-408, 2004
[15] M. Hirohata, Y. Shinnaka, K. Iwano, and S. Furui, “Sentence Extraction-based Presentation Summarization Techniques and Evaluation Metrics,” Proc. ICASSP, 2005.
[16] George Saon and Mukund Padmanabhan, “Data-Driven Approach to Designing Compound Words for Continuous Speech Recognition,” IEEE Transactions on Speech and Audio Processing, 2001.
[17] P. K. Wong and C. Chan, “Chinese Word Sementation Based on Maximum Matching and Word Binding Force,” Proc. Computational Linguistics, 1996.
[18] Andrew McCallum.
Homepage: http://www.cs.umass.edu/~mccallum/bow/rainbow/
[19] Jade Goldstein, Mark Kantrowitz, Vibhu Mittal and Jaime Carbonell, “Summarizing Text Documents: Sentence Selection and Evaluation Metrics,” Proc. SIGIR, 1999.
dc.identifier.urihttp://tdr.lib.ntu.edu.tw/jspui/handle/123456789/31778-
dc.description.abstract隨著科技的發展,生活中所能獲得的資訊愈來愈多,不只限於文字,包含著語音資訊的多媒體文件也愈來愈普遍,很有可能成為網路世界中最廣為流通的資料形式。雖然多媒體的資訊不易瀏覽,但大部分的多媒體資訊都包含了語音訊息,因此由語音文件來自動產生標題將會對於多媒體資訊的檢索與瀏覽有很大的幫助。
在本論文中提出了一套為語音文件自動產生標題的方法,結合了建造式標題產生法與適應性最近鄰居法,能夠自動為一篇語音文件產生通順且可讀的標題。其中,適應性最近鄰居法為改良最近鄰居法而來,在有相匹配的訓練語料的情形下,可以得到很好的結果。但是,在沒有相匹配的訓練語料時,產生的結果標題就會很不理想。在本論文中提出的建造式標題產生法則運用各種語音與語言處理方法,以及統計與評分技術來產生標題,可以相當程度解決訓練語料不匹配的問題。
由於適應性最近鄰居法充分運用人所撰寫的標題,使產生的標題能夠非常通順流暢,這個想法很值得保留下來使用。因此本論文將適應性最近鄰居法與本論文所提出的建造式標題產生法整合起來,一面保留適應性最近鄰居法的想法,一面配合運用建造式標題產生法,使產生標題的結果更理想。
其作法是先使用適應性最近鄰居法得到可能的候選標題,然後判斷這個候選標題是否與測試文件內容吻合。若是,則直接將該候選標題作為最後的標題;反之,若候選標題中的類專有名詞與關鍵用語都與測試文件內容不符,則改用建造式標題產生法來為測試文件產生標題。這種整合兩種方法的標題產生法,能夠保留兩個方法的概念與優點,確實使產生的標題可以普遍有更高可讀性與相關性。
zh_TW
dc.description.abstractIt is about automatic generation of titles for spoken documents using various scoring techniques.en
dc.description.provenanceMade available in DSpace on 2021-06-13T03:19:58Z (GMT). No. of bitstreams: 1
ntu-95-R93922077-1.pdf: 1221894 bytes, checksum: 7d6e6b0514695db0d1a420913b1ea0c3 (MD5)
Previous issue date: 2006
en
dc.description.tableofcontents摘要 iii
第一章 導論 1
1.1 研究動機 1
1.2 相關研究 2
1.3 研究方向 4
1.4 章節大綱 6
第二章 背景知識及實驗語料介紹 7
2.1 機率式潛藏語意分析模型 8
2.1.1 潛藏觀念模型 8
2.1.2 使用最大期望值演算法求取潛藏觀念模型 9
2.2 類專有名詞擷取及其他關鍵用語 12
2.2.1 類專有名詞擷取 13
2.2.2 類專有名詞外其他關鍵用語 14
2.3 應用機率式潛藏語意分析模型之語音文件摘要 16
2.4 實驗語料介紹與評估方式 17
2.4.1 實驗語料介紹 17
2.4.2 實驗評估方式 18
2.5 本章結論 20
第三章 適應性最近鄰居法 21
3.1 整體架構 21
3.2 前處理 23
3.2.1 關鍵詞的抽取 24
3.2.2 斷詞系統 24
3.2.3 主題分類器 24
3.3與適應性最近鄰居法相關之幾種其他重要作法 25
3.3.1 最近鄰居法 25
3.3.2 限制字彙型單純貝氏法 26
3.3.3 完整字彙型單純貝氏法 26
3.3.4 以詞頻倒文件頻做抽取式摘錄法 27
3.4 適應性最近鄰居法 28
3.5 本章結論 29
第四章 建造式自動標題產生法 31
4.1 整體架構 31
4.2 前處理 32
4.2.1 類專有名詞擷取 33
4.2.2 類專有名詞外其他標題用語選取 34
4.2.3 語音文件之摘要擷取 37
4.3 建造式標題產生法 38
4.3.1 標題用語選擇 38
4.3.2 標題結構模型 40
4.3.3 標題長度模型 41
4.3.4 建造式標題模型 44
4.3.5 維特比光束搜尋 45
4.4 後處理 48
4.5 實驗與評估 48
4.5.1 建造式標題產生法評估 48
4.5.2 長度模型的效應 50
4.5.3 詞性標記的效應 51
4.5.4 摘要的效應 52
4.5.5 位置分數的效應 52
4.5.6 限制字彙型單純貝氏法(NBL)分數的效應 53
4.5.7 潛藏主題亂度分數的效應 54
4.5.8 標題用語分數的效應 54
4.6 本章結論 55
第五章 整合適應性最近鄰居法與建造式標題產生法 57
5.1 適應性最近鄰居法之分析 58
5.1.1 適應性最近鄰居法之優點 58
5.1.2 適應性最近鄰居法之缺點 59
5.2 建造式標題產生法之分析 59
5.2.1 建造式標題產生法之優點 60
5.2.2 建造式標題產生法之缺點 60
5.3 整合適應性最近鄰居法與建造式標題產生法 61
5.4 實驗與評估 63
5.4.1 準確率與回收率 63
5.4.2 相關性與可讀性 65
5.5 本章結論 66
第六章 結論與未來展望 69
6.1 結論 69
6.2 未來展望 71
參考文獻 75
dc.language.isozh-TW
dc.subject適應性最近鄰居法zh_TW
dc.subject精緻型建造式標題產生法zh_TW
dc.subject建造式標題產生法zh_TW
dc.subject語音辨識zh_TW
dc.subjectPLSAen
dc.subjecttitle generationen
dc.subjecttopic entropyen
dc.subjectASRen
dc.subjectviterbi beam searchen
dc.title以多重評分自動產生語音文件標題之進一步研究zh_TW
dc.titleImproved Automatic Generation of Titles for Spoken Documents Using Various Scoring Techniquesen
dc.typeThesis
dc.date.schoolyear94-2
dc.description.degree碩士
dc.contributor.oralexamcommittee王小川,陳信希,陳信宏,鄭秋豫
dc.subject.keyword語音辨識,適應性最近鄰居法,建造式標題產生法,精緻型建造式標題產生法,zh_TW
dc.subject.keywordASR,PLSA,title generation,topic entropy,viterbi beam search,en
dc.relation.page78
dc.rights.note有償授權
dc.date.accepted2006-07-30
dc.contributor.author-college電機資訊學院zh_TW
dc.contributor.author-dept資訊工程學研究所zh_TW
顯示於系所單位:資訊工程學系

文件中的檔案:
檔案 大小格式 
ntu-95-1.pdf
  未授權公開取用
1.19 MBAdobe PDF
顯示文件簡單紀錄


系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。

社群連結
聯絡資訊
10617臺北市大安區羅斯福路四段1號
No.1 Sec.4, Roosevelt Rd., Taipei, Taiwan, R.O.C. 106
Tel: (02)33662353
Email: ntuetds@ntu.edu.tw
意見箱
相關連結
館藏目錄
國內圖書館整合查詢 MetaCat
臺大學術典藏 NTU Scholars
臺大圖書館數位典藏館
本站聲明
© NTU Library All Rights Reserved