Skip navigation

DSpace

機構典藏 DSpace 系統致力於保存各式數位資料(如:文字、圖片、PDF)並使其易於取用。

點此認識 DSpace
DSpace logo
English
中文
  • 瀏覽論文
    • 校院系所
    • 出版年
    • 作者
    • 標題
    • 關鍵字
    • 指導教授
  • 搜尋 TDR
  • 授權 Q&A
    • 我的頁面
    • 接受 E-mail 通知
    • 編輯個人資料
  1. NTU Theses and Dissertations Repository
  2. 電機資訊學院
  3. 電信工程學研究所
請用此 Handle URI 來引用此文件: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/25166
完整後設資料紀錄
DC 欄位值語言
dc.contributor.advisor李琳山(Lin-Shan Lee)
dc.contributor.authorKo-Chien Kuoen
dc.contributor.author郭克儉zh_TW
dc.date.accessioned2021-06-08T06:04:04Z-
dc.date.copyright2007-07-27
dc.date.issued2007
dc.date.submitted2007-07-25
dc.identifier.citation[1]“Document Understanding Conference.” http://duc.nist.gov/
[2] D Zajic, B Dorr, R Schwartz - Proceedings of the HLT-NAACL 2004 Document Understanding …, 2004 - tides.nist.gov
[3] Shun-Chuan Chen and Lin-Shan Lee, “Automatic Title Generation for Chinese Spoken Documents Using an Adaptive K Nearest-Neighbor approach, ” Proc. EUROSPEECH, 2003.
[4] Michael Witbrock and Vibhu Mittal, “Ultra Summarization: A Statistical Approach to Generating Highly Condensed Non-Extractive Summaries,” Proc. SIGIR, 1999.
[5] Stephen Wan, Mark Dras, Cecile Paris and Robert Dale, “Using Thematic Information in Statistical Headline Generation,” Proc. ACL,2003.
[6] Michele Bando, Vibhu Mittal and Michael Witbrock, “Headline Generation Based on Statistical Translation,” Proc. ACL, 2000.
[7] 王建智, “使用各種評分技術自動產生語音文件更佳標題之研究 (Improved Automatic Generation of Titles for Spoken Documents Using Various Scoring Techniques),” 碩士論文, 國立台灣大學資訊工程學研究所, 2006.
[8] Liang Zhou and Eduard Hovy, “Template-Filtered Headline Summarization,” Proc. ACL, 2004.
[9] 劉禹吟, “中文文字/語音文件中類專有名詞擷取及其可能應用之初步研究(An Initial Study on Named Entity Extraction from Chinese Text /Spoken Documents and Its Potential Applications),” 碩士論文, 國立台灣大學資訊工程學研究所, 2004.
[10] T. Hofmann, “Probabilistic latent semantic indexing,” in Proc. ACM SIGIR
Conf. R&D in Information Retrieval, 1999, pp. 50–57.
[11] David M. Blei, Andrew Y. Ng, and Michael I. Jordan, “Latent Dirichlet Allocation,” Journal of Machine Learning Research 3, 2003.
[12] Sheng-Yi Kong and Lin-Shan Lee, “Improved Spoken Document Summarization Using Probabilistic Latent Semantic Analysis (PLSA),” Proc. ICASSP, 2006
[13] J .R. Bellegarda, “Latent semantic mapping,” IEEE Signal Processing Mag.,
vol. 22, no. 5, pp. 70–80, Sept. 2005.
[14]“Message Understanding Conference”, http://en.wikipedia.org/wiki/Message_Understanding_Conference
[15] 李耘天, “ (An Initial Study of Cross-domain Speech Question-and-Answering System)”, 碩士論文, 國立台灣大學資訊工程研究所, 2003
[16] Ya-chao Hsieh, Yu-tsun Huang, Chien-chih Wang, and Lin-shan Lee, “Improved Spoken Document Retrieval with Dynamic Key Term Lexicon and Probabilistic Latent Semantic Analysis (PLSA)”, ICASSP, 2006
[17] L.-F. Chen, “PAT-tree-based Adaptive Keyphrase Extraction for Intelligent Chinese Information Retrieval,”Master’s thesis, National Taiwan University, 2003.
[18] L.-F. Chen, “PAT-tree-based Keyword Extraction for Chinese Information Retrieval,”SIGIR ’97, pp. 50-58, ACM, 1997.
[19] Yi-cheng Pank, Yu-ying Liu and Lin-shan Lee, “Named Entity Recognition from Spoken Documents Using Global Evidence and External Knowledge Sources with Application on Mandarin Chinese,”Proc. ASRU, 2005.
[20] I. Mani and M.T. Maybury, “Advances in Automatic Text Summarization,” in Special Section, IEEE Signal Processing Magazine, 2005.
[21] 何遠, “中文口語文件自動摘要之初步研究(An Initial Study on Automatic Summarization of Chinese Spoken Documents),” 碩士論文, 國立台灣大學資訊工程學研究所, 2003.
[22] Y. Gong and X. Liu, “Generic text summarization using relevance measure and latent semantic analysis,” in Proc. ACM SIGIR Conference on R&D in Information Retrieval, 1999, pp. 121-128.
[23] Sheng-yi Kong and Lin-shan Lee, “Improved Spoken Document Summarization Using Probabilistic Latent Semantic Analysis (PLSA),” Proc. ICASSP, 2006.
[24] Yoichi Yamashita and Akira Inoue, “Extraction of Important Sentences Using F0 Information For Speech Summarization”, ICSLP, 2002.
[25] SRI International, “SRILM – The SRI Language Modeling Toolkit”, http://www.speech.sri.com/progects/srilm/, 2006
[26] D. Blei, J. Lafferty, “Correlated Topic Models,”in Advances in Neural Information Processing Systems, 2006
[27] Yik Cheung Tam, Tanja Schultz, “Unsupervised Language Model Adaptation Using Latent Semantic Marginals,”Interspeech 2006
[28] B. de Finetti.”Theory of probability,”vol. 1-2. John Wiley & Sons Ltd., 1990 reprint of the 1975 translation.
[29] M. I. Jordan, Z. Ghahramani, T. Jaakkola, and L.K. Saul, “An Introduction to Variational methods for graphical models,”in Machine Learning, vol. 37, no. 2, 1999, pp. 183-233
[30] Lin-shan Lee, Yuan Ho, Jua-fu Chen, Shun-Chuan Chen, “Why is the Special Structure of the Language Important for Chinese Spoken Language Processing–Examples on Spoken Document Retrieval, Segmentation, and Summarization”, 2003.
[31] Ricardo Baeza-Yates and Berthier Ribeito-Nero, “Modern Information Retrieval,” pages 27-30, Addison Wesley
[32] 陳舜全, “中文語音文件分析之初步研究-主題切割,標題設定及主題重組(Initial Studies on Chinese Spoken Document Analysis-Topic Segmentation, Title Generation, and Topic Organization),” 碩士論文, 國立台灣大學資訊工程學研究所, 2004
dc.identifier.urihttp://tdr.lib.ntu.edu.tw/jspui/handle/123456789/25166-
dc.description.abstract科技的快速發展帶給我們許多便利,也使得生活上所得資訊不再只限於文字,而有了多媒體與語音文件。為了方便整理和快速瀏覽,我們先使用自動語音辨識將多媒體文件的語音訊號轉寫 (Transcribe) 為文字後再做處理,呈現。處理的方式包括分類、自動摘要 (Automatic Summarization)、和自動標題產生(Automatic Title Generation)等。
本論文除了探討純文字文件下的自動標題產生,另一個研究主題為針對經自動轉寫產生,與有錯誤的文件中做自動標題產生。論文中以語音新聞為例,探討辨識錯誤對自動標題產生的影響。
本論文內容主要分為三大部分:”建造式標題產生法基本型”、”建造式標題產生法之改進及用於自動轉寫有錯誤之文件”,以及”使用不同特徵單位於建造式標題產生法中”。出步實驗顯示若干效能的提升是做得到的。
zh_TW
dc.description.abstractTitle generation is considered important in the near future for easy browsing and retrieving the multimedia document. The natural properties of titles are different from summaries, which make automatic title generation a more challenging task and hence not much improvement has been reported compared with automatic summarization. In this paper an improved non-extractive title generation method is developed. An evaluating data is first summarized and then with Viterbi beam search and various scores learnt form training corpus, we found the output title. Very positive results were btained.en
dc.description.provenanceMade available in DSpace on 2021-06-08T06:04:04Z (GMT). No. of bitstreams: 1
ntu-96-R94942126-1.pdf: 632445 bytes, checksum: b0111c21b1e1f40bb13b6e2c7fd1d3e6 (MD5)
Previous issue date: 2007
en
dc.description.tableofcontents封面………………………………………………………………………………… i
口試委員會審定書………………………………………………………………… ii
中文摘要…………………………………………………………………………… iii
目錄………………………………………………………………………………… iv
圖目錄……………………………………………………………………………… v
表目錄……………………………………………………………………………… vi
第一章 導論…………………………………………………………………… 1
1.1 研究動機……………………………………………………………………… 1
1.2 相關研究………………………………………………………………… 2
1.3 本論文研究方法與主要成果…………………………………………… 3
1.4 論文架構 ………………………………………………………………… 4
第二章 知識背景及實驗語料介紹 ……………………………………………… 6
2.1 研究動機 ……………………………………………………………………… 6
2.0 導論 ……………………………………………………………………… 6
2.1 機率式潛藏語意分析模型 ……………………………………………… 6
2.1.1 潛藏觀念模型 …………………………………………………… 7
2.1.2 利用最大期望值法求得潛藏觀念模型 ………………………… 8
2.2 類專有名詞擷取及其他關鍵用語 ……………………………………… 10
2.2.1 派樹式類專有名詞抽取 ………………………………………… 11
2.2.2 類專有名詞外其他關鍵用語擷取 ……………………………… 13
2.3 應用機率式潛藏語意分析模型之語音文件摘要 ……………………… 14
2.4 統計式語言模型 ………………………………………………………… 15
2.5 實驗語料介紹與評估方式 ……………………………………………… 17
2.5.1 實驗語料介紹 …………………………………………………… 17
2.5.2 實驗評估方式 …………………………………………………… 17
2.5.2.1 專人評比相關度與可讀性 ……………………………… 18
2.5.2.2 F評比 …………………………………………………… 20
第三章 建造式標題產生法基本型 ………………………………………………22
3.0 導論 …………………………………………………………………………… 22
3.1 整體架構 ……………………………………………………………………… 23
3.2 前處理 ………………………………………………………………………… 25
3.2.1 類專有名詞擷取 ……………………………………………………… 25
3.2.2 類專有名詞外其他標題用語選取 …………………………………… 25
3.2.3 語音文件之摘要擷取 ………………………………………………… 28
3.3 建造式標題產生法 …………………………………………………………… 29
3.3.1 標題用語選擇 ………………………………………………………… 30
3.3.2 標題結構模型 ………………………………………………………… 31
3.3.3 標題長度模型 ………………………………………………………… 33
3.3.4 建造式標題模型 ……………………………………………………… 35
3.3.5 維特比光束搜尋 ……………………………………………………… 36
3.4 本章結論 ……………………………………………………………………… 38
第四章 建造式自動標題產生法之延伸 ………………………………………… 39
4.0 導論 …………………………………………………………………………… 39
4.1 實驗語料介紹 ………………………………………………………………… 39
4.2 摘要比例之效應 ……………………………………………………………… 40
4.3 語言模型之效應 ……………………………………………………………… 41
4.4 位置分數的效應 ………………………………………………………… 43
4.5 潛藏主題亂度分數的效應 …………………………………………………… 45
4.6 N-連詞性標記模型的效應 …………………………………………………… 45
4.7 類專有名詞的效應 …………………………………………………………… 46
4.8 關鍵用語的效應 ……………………………………………………………… 47
4.9 長度模型的效應 ……………………………………………………………… 48
4.10 適應性最近距離法、建造式標題產生法基本型、與調整參數後之建造式標題產生法綜合比較 ………………………………………………………………… 49
4.11 人工綜合評比 …………………………………………………………………52
4.12 不同領域下之表現 ………………………………………………………… 53
4.13 本章結論 …………………………………………………………………… 56
第五章 建造式標題產生法應用於有錯誤率之文件 …………………………… 57
5.0 導論 …………………………………………………………………………… 57
5.1 測試文件具有錯誤率的情況 ………………………………………………… 59
5.2 使用不同特徵單位於自動標題產生 ………………………………………… 62
5.2.1 在人工轉寫上的實驗結果與比較 …………………………………… 64
5.2.2 在自動轉寫上的實驗結果與比較 …………………………………… 67
5.3 本章結論 ……………………………………………………………………… 71
第六章 結論與未來展望 ………………………………………………………… 72
6.1 結論 …………………………………………………………………………… 72
6.2 未來展望 ……………………………………………………………………… 73
參考文獻 …………………………………………………………………………… 74
dc.language.isozh-TW
dc.subject語音文件 自動標題產生zh_TW
dc.subjectChinese spoken document title generationen
dc.title中文語音文件自動標題設定之進一步研究zh_TW
dc.titleImproved Automatic Title Generation for Chinese Spoken Documentsen
dc.typeThesis
dc.date.schoolyear95-2
dc.description.degree碩士
dc.contributor.oralexamcommittee王小川(Xiao-Chuan),陳信宏(Xin-Hong Chen),鄭秋豫
dc.subject.keyword語音文件 自動標題產生,zh_TW
dc.subject.keywordChinese spoken document title generation,en
dc.relation.page78
dc.rights.note未授權
dc.date.accepted2007-07-25
dc.contributor.author-college電機資訊學院zh_TW
dc.contributor.author-dept電信工程學研究所zh_TW
顯示於系所單位:電信工程學研究所

文件中的檔案:
檔案 大小格式 
ntu-96-1.pdf
  未授權公開取用
617.62 kBAdobe PDF
顯示文件簡單紀錄


系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。

社群連結
聯絡資訊
10617臺北市大安區羅斯福路四段1號
No.1 Sec.4, Roosevelt Rd., Taipei, Taiwan, R.O.C. 106
Tel: (02)33662353
Email: ntuetds@ntu.edu.tw
意見箱
相關連結
館藏目錄
國內圖書館整合查詢 MetaCat
臺大學術典藏 NTU Scholars
臺大圖書館數位典藏館
本站聲明
© NTU Library All Rights Reserved