Skip navigation

DSpace

機構典藏 DSpace 系統致力於保存各式數位資料(如:文字、圖片、PDF)並使其易於取用。

點此認識 DSpace
DSpace logo
English
中文
  • 瀏覽論文
    • 校院系所
    • 出版年
    • 作者
    • 標題
    • 關鍵字
  • 搜尋 TDR
  • 授權 Q&A
    • 我的頁面
    • 接受 E-mail 通知
    • 編輯個人資料
  1. NTU Theses and Dissertations Repository
  2. 文學院
  3. 語言學研究所
請用此 Handle URI 來引用此文件: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/83103
標題: 文本主題的向量表徵模型及其多模態任務應用
An Integrated Topic Embedding Framework for Multimodal Document Representation
其他標題: An Integrated Topic Embedding Framework for Multimodal Document Representation
作者: 廖聿鋆
Yu-Yun Liao
指導教授: 謝舒凱
Shu-Kai Hsieh
關鍵字: 多模態機器學習,主題向量,主題模型,文本分類,社群媒體分析,
multimodal machine learning,topic embeddings,topic models,text classification,social media analysis,
出版年 : 2022
學位: 碩士
摘要: 近年來,圖像與文字資料間的跨模態訊息已經受到廣泛的研究及應用。不過,文本中的主題性資訊 (如文章主旨或論述的中心思想) 卻從未被應用至多模態任務中,這樣的資訊如何被機器理解與表徵也未曾被深入探討。有鑑於此,本論文提出「融合主題表徵」來作為文本主題在多模態任務中的向量表徵形式,並論證文本主題與文字、圖片等模態同樣能承載重要語意訊息。

本論文藉由兩種子表徵來建構融合主題表徵:透過BERTopic主題模型產出的sentence-BERT向量作為全域主題表徵,及透過node2vec和graphSAGE從主題標籤網路(hashtag network)所產生的節點向量作為局部主題表徵。接著,本論文設計三種不同的任務來檢驗融合主題表徵的效果:文本主題相似度評測任務主要比較人類與機器對文本主題概念的理解,而其餘兩項多模態預測任務 (貼文熱度預測及廣告辨識) 則透過置換不同模態組合來分析融合主題表徵是否能增進下游任務的表現。

研究結果顯示,當融合主題表徵被作為多模態文本表徵的一部分時,模型在下游任務的表現可以提昇約5%。這說明了文本主題能輔助其他模態的預測表現,並在多模態標表徵中攜帶有助於模型預測的主題訊息。此外,人類與機器在評斷文本主題相似度時的Spearman相關係數達到0.44,表示融合主題表徵大致能夠模擬人類認知中的文本主題概念。最後,融合主題表徵的兩項子表徵分別能擷取不同粒度的主題資訊,而兩者融合時彼此的資訊呈現互補的模式。
Recent developments in multimodal machine learning have made extensive explorations into the cross-modal relationships between textual and visual data. However, topical information in documents (such as central ideas and discoursive focus in texts) has never been implemented to multimodal tasks, and its vector representation still remain under-researched. In light of this, the present thesis proposes Integrated Topic Embeddings (ITEs) to represent document topics in multimodal prediction tasks, and argues that they serve as an equally informative modality as text and images.

This thesis combines two elements to form integrated topic embeddings: global topic embeddings, which are sentence-BERT embeddings generated from BERTopic, and local topic embeddings, which are node embeddings generated by node2vec and graphSAGE from a hashtag network. Three experiments are then designed to validate the effectiveness of ITEs: the topic similarity rating task aims to compare human cognition and machine understanding of document topics, and two ablation tasks (popularity prediction and advertisement detection) examine whether the machine predicts better with document topics fused in the multimodal document representation.

The results indicate that when incorporating ITEs, multimodal models can boost task performances by up to 5%. This demonstrates that document topics are able to support other modalities, and they serve as an informative component in multimodal document representations. In addition, topic information encoded in ITEs moderately resembles that of human perception, as inferred from an average Spearman's correlation of 0.44 between human and the machines's ratings of document topic similarity. Finally, qualitative assessments on ITEs imply that the hashtag network and BERTopic capture different layers and granularity of topical information, and the two are complementary when combined as ITEs.
URI: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/83103
DOI: 10.6342/NTU202210031
全文授權: 同意授權(限校園內公開)
電子全文公開日期: 2025-10-12
顯示於系所單位:語言學研究所

文件中的檔案:
檔案 大小格式 
U0001-1258221107572002.pdf
  目前未授權公開取用
8.65 MBAdobe PDF檢視/開啟
顯示文件完整紀錄


系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。

社群連結
聯絡資訊
10617臺北市大安區羅斯福路四段1號
No.1 Sec.4, Roosevelt Rd., Taipei, Taiwan, R.O.C. 106
Tel: (02)33662353
Email: ntuetds@ntu.edu.tw
意見箱
相關連結
館藏目錄
國內圖書館整合查詢 MetaCat
臺大學術典藏 NTU Scholars
臺大圖書館數位典藏館
本站聲明
© NTU Library All Rights Reserved