Skip navigation

DSpace

機構典藏 DSpace 系統致力於保存各式數位資料(如:文字、圖片、PDF)並使其易於取用。

點此認識 DSpace
DSpace logo
English
中文
  • 瀏覽論文
    • 校院系所
    • 出版年
    • 作者
    • 標題
    • 關鍵字
  • 搜尋 TDR
  • 授權 Q&A
    • 我的頁面
    • 接受 E-mail 通知
    • 編輯個人資料
  1. NTU Theses and Dissertations Repository
  2. 管理學院
  3. 資訊管理學系
請用此 Handle URI 來引用此文件: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/94174
標題: 基於品質排名訊號之新聞標題數值生成
Generating Number-Rich News Headlines Guided by Rank-based Quality Signals
作者: 沈冠伶
Kuan-Ling Shen
指導教授: 盧信銘
Hsin-Min Lu
關鍵字: 標題生成,數字,對比學習,數字描述對象資訊,語意相似度,自然語言處理,
headline generation,numerical value,contrastive learning,numeral entity,semantic similarity,natural language processing,
出版年 : 2024
學位: 碩士
摘要: 現代人每天透過新聞標題快速獲取大量資訊,並用標題來決定是否進一步閱讀新聞內文,因此標題的重要性不言而喻。標題生成仰賴從內文中萃取出精華資訊,並用一句話濃縮、概括整篇文章,可以視為摘要任務的一環。另一方面,標題中的數字也扮演了相當重要的角色,具備文字所不能傳達的精確性特性,不僅影響讀者的看法與價值觀,財經新聞標題中的數字對於投資人的投資決策更有不容忽視的影響力。若語言模型能幫助新聞業者實現自動生成標題,並且在標題中包含編輯者視為重要的數字,則能夠節省大量時間與人力成本。
過往在摘要任務上的研究已行之有年,然而當中有結合數字的研究卻寥寥無幾。此外,儘管在機器數字理解領域上累積了不少研究,但這些研究大多在提升模型數字推理方面的能力,對於我們任務的幫助有限。
因此,本研究提出了基於摘要模型 Bringing Order to Abstractive Summarization (BRIO) 上的方法,定義兩個品質指標,分別代表數字描述對象的語意相似度分數以及整個標題的語意相似度分數,並透過對比學習鼓勵模型給予高品質摘要較高的預測機率值、低品質摘要較低的預測機率值,從而引導模型生成高品質且包含數字的標題。我們的實驗結果表明,這兩個方法在數字準確率方面個別提升了4和2個百分點;在三個摘要指標(ROUGE、BERTScore和MoverScore)上皆個別提升了0到1分,證實我們的方法既能維持一定程度的摘要品質,還能有效協助模型生成符合編輯者偏好的數字。此外,第一種方法在摘要能力上甚至超越了所有基準的表現。
Modern individuals rapidly obtain vast amounts of information through news headlines and use them to decide whether to read the full article. Therefore, the importance of headlines is undeniable. Headline generation relies on extracting essential information from the content and condensing it into a single sentence, thus making it an integral part of the summarization task. Furthermore, numerical values in headlines play a significant role by providing precision that words alone cannot convey, influencing readers' perceptions and values. In financial news, the numbers in headlines have a substantial impact on investors' decision-making. If language models can assist news editors in automatically generating headlines that include numbers deemed important by editors, it would save significant time and labor costs.
Although research on summarization tasks has been extensive, there is a scarcity of studies incorporating numerical values. Despite the accumulated research in the domain of numerical reasoning, most of it focuses on enhancing models' numeracy for solving machine reading comprehension (MRC) tasks, offering limited assistance for our task.
Therefore, this study proposes methods based on the summarization model Bringing Order to Abstractive Summarization (BRIO), defining two quality metrics representing the semantic similarity scores of numerical entities and the overall headline. Through contrastive learning, the model is encouraged to assign higher estimated probabilities to high-quality summaries and lower probabilities to low-quality ones, thereby guiding the generation of high-quality headlines that include numerical values. Our experimental results show that the two methods individually improve numeral accuracy by 4- and 2-percentage-point, respectively. In terms of summarization metrics, each method enhances the three metrics (ROUGE, BERTScore, and MoverScore) by 0 to 1 point, respectively, confirming that our approach not only maintains a certain level of summary quality but also effectively helps the model generate numerical values aligned with editors' preferences. Additionally, the first method surpasses all baselines in summarization capability.
URI: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/94174
DOI: 10.6342/NTU202402437
全文授權: 同意授權(限校園內公開)
電子全文公開日期: 2029-07-27
顯示於系所單位:資訊管理學系

文件中的檔案:
檔案 大小格式 
ntu-112-2.pdf
  目前未授權公開取用
1.13 MBAdobe PDF檢視/開啟
顯示文件完整紀錄


系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。

社群連結
聯絡資訊
10617臺北市大安區羅斯福路四段1號
No.1 Sec.4, Roosevelt Rd., Taipei, Taiwan, R.O.C. 106
Tel: (02)33662353
Email: ntuetds@ntu.edu.tw
意見箱
相關連結
館藏目錄
國內圖書館整合查詢 MetaCat
臺大學術典藏 NTU Scholars
臺大圖書館數位典藏館
本站聲明
© NTU Library All Rights Reserved