Skip navigation

DSpace

機構典藏 DSpace 系統致力於保存各式數位資料(如:文字、圖片、PDF)並使其易於取用。

點此認識 DSpace
DSpace logo
English
中文
  • 瀏覽論文
    • 校院系所
    • 出版年
    • 作者
    • 標題
    • 關鍵字
    • 指導教授
  • 搜尋 TDR
  • 授權 Q&A
    • 我的頁面
    • 接受 E-mail 通知
    • 編輯個人資料
  1. NTU Theses and Dissertations Repository
  2. 文學院
  3. 語言學研究所
請用此 Handle URI 來引用此文件: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/99257
標題: 基於大型語言模型的外語報刊數據意見挖掘
Exploring LLM-Based Opinion Mining in Foreign-Language Newspaper Data
作者: 戴宓
Deborah Watty
指導教授: 謝舒凱
Shu-Kai Hsieh
關鍵字: 大型語言模型,多語言情緒分析,檢索增強生成,知識圖譜,
LLMs,Multilingual Sentiment Analysis,RAG,Knowledge Graphs,
出版年 : 2025
學位: 碩士
摘要: 在日益緊密相連的世界中,跨越語言邊界理解事件如何被報導是一項重要的挑戰。本論文以《人民日報》(中國共產黨的官方報章)為例,探討大型語言模型(LLMs)對多語言意見挖掘之使用。雖然基於LLM的方法在近年來已被證實對意見挖掘任務非常有效,但其在多語言任務應用方面的研究仍然相對有限。

本論文的目標是評估基於LLM的方法在單語和多語語境下進行意見挖掘與問答的表現,並檢測內文與提示語言不相符是否會影響結果。第一個實驗聚焦於使用零樣本提示詞識別實體層級的情感,並比較中文、英文及德文的提示詞結果表現。然而,儘管情感分析提供了重要的洞察,卻無法提供關於文本內容的有效資訊。為了彌補此一缺陷,第二個探索實驗使用檢索增強生成(RAG)進行問答,並比較了三種不同架構在不同問題類型上的表現。

在這兩個實驗中,多語言LLM(如GPT-4、Gemini)均表現出穩健的性能,即使在數據資料與查詢語言不一致的情況下,表現差異也非常微小。零樣本提示在情感分析中展現了強大的潛力,對「日本」一詞的可視化情感分析反映了中日關係在一些重要事件期間的預期變化。而在問答任務中,RAG架構的選擇則對性能表現影響顯著,不同架構在處理不同類型的問題時各有所長,突顯了根據任務調整方法的必要性。

這些研究結果表明了基於LLM的方法在多語言任務中的靈活性,即便數據資料和查詢語言有所不同,仍能為情感分析和問答任務提供有效的解決方案。
Understanding how events are reported across linguistic boundaries is a significant challenge in an increasingly interconnected world. This thesis explores the use of large language models (LLMs) for multilingual opinion mining, using The People's Daily, the official newspaper of the Communist Party of China, as a sample use case. While LLM-based methods have proven to be highly effective for opinion mining tasks in recent years, there is still relatively little research on their application to multilingual tasks.

The overall goal of this thesis was to assess the performance of LLM-based methods for opinion mining and question answering in both monolingual and multilingual contexts, evaluating whether mismatches between content and prompt languages impact outcomes. The first experiment focused on identifying entity-level sentiment using zero-shot prompting, comparing the performance of Chinese, English and German prompts. Although sentiment analysis provides valuable insights, it offers no information about the content of the texts. To address this gap, the second experiment explored question answering using Retrieval-Augmented Generation (RAG), comparing the performance of three different architectures across different question types.

Across both experiments, multilingual LLMs, such as GPT-4 and Gemini, showed robust performance, with minimal differences observed when data and query languages did not match. Zero-shot prompting demonstrated strong potential for sentiment analysis, with visualizations of sentiment toward Japan revealing expected shifts during key events in Sino-Japanese relations. For question answering, the choice of RAG architecture significantly influenced performance, with different architectures excelling at different types of questions, underscoring the need to tailor the approach to the task.

These findings underscore the versatility of LLM-based methods for multilingual tasks, offering effective solutions for sentiment analysis and question answering, even in cases where data and queries are in different languages.
URI: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/99257
DOI: 10.6342/NTU202502354
全文授權: 同意授權(全球公開)
電子全文公開日期: 2025-08-22
顯示於系所單位:語言學研究所

文件中的檔案:
檔案 大小格式 
ntu-113-2.pdf9.62 MBAdobe PDF檢視/開啟
顯示文件完整紀錄


系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。

社群連結
聯絡資訊
10617臺北市大安區羅斯福路四段1號
No.1 Sec.4, Roosevelt Rd., Taipei, Taiwan, R.O.C. 106
Tel: (02)33662353
Email: ntuetds@ntu.edu.tw
意見箱
相關連結
館藏目錄
國內圖書館整合查詢 MetaCat
臺大學術典藏 NTU Scholars
臺大圖書館數位典藏館
本站聲明
© NTU Library All Rights Reserved