Skip navigation

DSpace

機構典藏 DSpace 系統致力於保存各式數位資料(如:文字、圖片、PDF)並使其易於取用。

點此認識 DSpace
DSpace logo
English
中文
  • 瀏覽論文
    • 校院系所
    • 出版年
    • 作者
    • 標題
    • 關鍵字
  • 搜尋 TDR
  • 授權 Q&A
    • 我的頁面
    • 接受 E-mail 通知
    • 編輯個人資料
  1. NTU Theses and Dissertations Repository
  2. 電機資訊學院
  3. 資訊網路與多媒體研究所
請用此 Handle URI 來引用此文件: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/86202
標題: 生成科學論文之條列式貢獻
Generating Disentangled Contributions for Scientific Documents
作者: 劉孟寰
Meng-Huan Liu
指導教授: 陳信希
Hsin-Hsi Chen
關鍵字: 科學文本處理,抽象式摘要,科學貢獻生成,
Scholarly Document Processing,Abstractive Summarization,Research Contribution Generation,
出版年 : 2022
學位: 碩士
摘要: 科學論文的貢獻側重於描述其原創之處和重要價值,對於每個科學研究來說這都可以被認為是其最核心的部分。一個能精確辨認論文貢獻並將其組織為結構化摘要的系統對於輔助自動化處理科學文本和幫助讀者理解等應用具有潛在價值。雖然近期的工作開始致力於與論文貢獻相關的任務的研究中,目前仍缺少高品質的大規模資料集來輔助深度學習模型的訓練。有鑑於此,我們收集並整理了一個資料集,其中包含大約兩萬四千篇計算機科學領域的論文及其作者條列之貢獻,根據我們提出的標記框架,這些科學貢獻又被進一步分為對應的不同類別。接著我們正式定義了生成科學論文之條列式貢獻這個任務。利用大量的無監督資料和原始論文中重要語句以及生成目標所包含的貢獻類別,我們提出了一個細粒度的訓練策略。實驗結果表明我們提出的方法優於具競爭力的基線模型和其他訓練策略,證明了其有效性。
我們也進行了詳細分析以研究我們所提出的資料集和任務的特性及其挑戰之處。
Contributions of scientific papers highlight their novelty and key values, which are essentially the core parts of every research work. Systems that are capable of identifying the contributions of the papers precisely and organizing them into well-structured summaries are valuable in aiding both automatic text processing and human comprehensions. Though recent works have focused more on tasks dealing with the contributions of the scientific documents, there is currently no large-scale dataset with high quality that can facilitate the training of modern deep learning based models. To this end, we curate a dataset consisting of 24K computer science papers with contributions explicitly listed by the authors, which are further classified into different contribution types based on our newly-introduced annotation scheme. Then we formally formulate the task of generating disentangled contributions for scientific documents. We present fine-grained post-training strategy leveraging abundant unsupervised data and the contribution types of both highlight sentences in the source documents and the generation targets. Experimental results show that the proposed method outperforms competitive baselines and other post-training strategies, demonstrating the effectiveness of our approach. Detailed analysis is also conducted to study the characteristics and challenges of our dataset as well as the newly-proposed task.
URI: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/86202
DOI: 10.6342/NTU202203034
全文授權: 同意授權(全球公開)
電子全文公開日期: 2023-08-31
顯示於系所單位:資訊網路與多媒體研究所

文件中的檔案:
檔案 大小格式 
ntu-110-2.pdf2.66 MBAdobe PDF檢視/開啟
顯示文件完整紀錄


系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。

社群連結
聯絡資訊
10617臺北市大安區羅斯福路四段1號
No.1 Sec.4, Roosevelt Rd., Taipei, Taiwan, R.O.C. 106
Tel: (02)33662353
Email: ntuetds@ntu.edu.tw
意見箱
相關連結
館藏目錄
國內圖書館整合查詢 MetaCat
臺大學術典藏 NTU Scholars
臺大圖書館數位典藏館
本站聲明
© NTU Library All Rights Reserved