Skip navigation

DSpace

機構典藏 DSpace 系統致力於保存各式數位資料(如:文字、圖片、PDF)並使其易於取用。

點此認識 DSpace
DSpace logo
English
中文
  • 瀏覽論文
    • 校院系所
    • 出版年
    • 作者
    • 標題
    • 關鍵字
  • 搜尋 TDR
  • 授權 Q&A
    • 我的頁面
    • 接受 E-mail 通知
    • 編輯個人資料
  1. NTU Theses and Dissertations Repository
  2. 共同教育中心
  3. 統計碩士學位學程
請用此 Handle URI 來引用此文件: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/59483
標題: 閉合模式融合於編輯相似度之自動文本摘要
Automatic Text Summarization using closed-Pattern-Infused Edit Similarity (PIESim)
作者: Yu-Ting Chen
陳育婷
指導教授: 蔡政安(Chen-An Tsai)
共同指導教授: 許聞廉(Wen-Lian Hsu)
關鍵字: 自動摘要,模式探勘,序列模式探勘,編輯距離,知識發現,互動式模型,可解釋模型,
automatic text summarization,pattern mining,sequential pattern mining,edit distance,knowledge discovery,interactive model,explainable model,
出版年 : 2020
學位: 碩士
摘要: 模式探勘與編輯距離很少被用在現有的自動摘要技術。傳統的詞頻式模型難以考慮更深入的語意資訊;當紅的深度學習雖然可以解決前者問題,但難以解釋及修改。此外,詞頻模型和深度學習模型的共通點是都會將句子轉換成向量後再做運算;但是,我們並不會在腦中自動將文字轉成一系列的數字,而是以文字本身出發去做思考。
基於上述問題,本論文提出一個自動摘要模型–closed-Pattern-Infused Edit Similarity Model (PIESim)。它是一個基於模式探勘與編輯距離比對、以字串而非向量為基礎,從而補足詞頻式及深度學習模型缺點的模型。相對於前者,它可以考慮上下文與順序資訊;相對於後者,它具備直觀的解釋及修改能力。除此之外,我們是第一個提出結合模式頻率之改良編輯距離 (pattern-infused edit distance)的摘要模型。PIESim在資料集上達到比多數摘要方法及用單純編輯距離、單純模式頻率總和、考慮詞彙頻率的改良編輯距離、詞彙向量、及嵌入式向量等更好的效果。此外,在PIESim的架構下,我們可以在不改變方法的前提從任何來源加入重要訊息;實驗中,我們選擇加入訓練集文章資訊和使用者輸入以豐富文章的領域知識,並藉此提出一個全新標準–記憶相似度。
PIESim的非向量表示及可考量語義資訊的特性,均符合人類處理及理解文件的過程;也因此,本模型在中文及英文新聞資料集、長摘要及短摘要上皆取得極為優越的成果。我們也以數個案例及互動式軟體說明PIESim在解釋、修改及與使用者互動上的直觀優勢。未來的自動摘要研究可在此基礎上做更多延伸及應用。

Pattern mining and edit distance have rarely been used in existing text summarization techniques. Conventional term-based approaches are weak at considering semantic information. Although the well-known deep learning algorithm has led to increasing advances in semantic understanding, it suffers from explanation and revision in the context of articles. In addition, both types of approaches transform sentences into vectors; however, human intelligence won’t transfer texts into a series of numbers; decisions are made according to its original form.
In this thesis, we propose a novel model, called closed-Pattern-Infused Edit Similarity Model (PIESim). It applies pattern mining and edit distance and is entirely string-based rather than vector-based to compensate for limitations in term-based and deep learning-based methods. Unlike the former, it is able to capture contextual and order information; as well as it offers intuitive explanation and revision compared to the latter. In addition, we are the first to propose pattern-infused edit distance mechanism in summarization systems. PIESim achieves better performance compared to most systems and variants, such as using pure edit distance, sum of patterns’ supports, term-infused edit distance, term and embedded based representations on the experimental dataset. Furthermore, under PIESim’s structure, we can consider new contents from any sources. We choose to add training data and queries to enrich domain knowledge, and propose a novel criterion- memory similarity on this basis.
PIESim is a non-vector-based system, while it also accommodates semantic information, conforming to how human process and understand texts. Therefore, experiments show that it achieves superior performance on both Chinese and English datasets, long and short summaries, and is intuitive in explanation, revision, and interaction. Future research can make progresses based on it.
URI: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/59483
DOI: 10.6342/NTU202003370
全文授權: 有償授權
顯示於系所單位:統計碩士學位學程

文件中的檔案:
檔案 大小格式 
U0001-1408202008142600.pdf
  目前未授權公開取用
2.75 MBAdobe PDF
顯示文件完整紀錄


系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。

社群連結
聯絡資訊
10617臺北市大安區羅斯福路四段1號
No.1 Sec.4, Roosevelt Rd., Taipei, Taiwan, R.O.C. 106
Tel: (02)33662353
Email: ntuetds@ntu.edu.tw
意見箱
相關連結
館藏目錄
國內圖書館整合查詢 MetaCat
臺大學術典藏 NTU Scholars
臺大圖書館數位典藏館
本站聲明
© NTU Library All Rights Reserved