Skip navigation

DSpace

機構典藏 DSpace 系統致力於保存各式數位資料(如:文字、圖片、PDF)並使其易於取用。

點此認識 DSpace
DSpace logo
English
中文
  • 瀏覽論文
    • 校院系所
    • 出版年
    • 作者
    • 標題
    • 關鍵字
  • 搜尋 TDR
  • 授權 Q&A
    • 我的頁面
    • 接受 E-mail 通知
    • 編輯個人資料
  1. NTU Theses and Dissertations Repository
  2. 管理學院
  3. 資訊管理學系
請用此 Handle URI 來引用此文件: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/52642
標題: 基於順序遷移學習開發繁體中文情感分析工具
Developing Sentiment Analysis Toolkit for Traditional Chinese Using Sequential Transfer Learning
作者: Yu-Ting Tu
凃育婷
指導教授: 盧信銘(Hsin-Min Lu)
關鍵字: 情感分析,句子情感分類,屬性術語提取,屬性情感分類,深度學習,順序遷移學習,預訓練,微調,繁體中文,工具開發,
Sentiment Analysis for Traiditional Chinese,Sentence-level Sentiment Classification,Aspect Term Extraction,Aspect-level Sentiment Classification,Sequential Transfer Learning,Pre-training,Fine-tuning,Traditional Chinese,Tool Development,
出版年 : 2020
學位: 碩士
摘要: 近年隨著論壇與社群平台的興起,許多人習慣在網路上分享自己對產品服務的看法,這些非結構化的資料中包含對個人或組織來說有價值的訊息,例如消費者能輔助做出購物決定、公司能從中找到改進產品的方向。為了要更快速準確地捕獲其中所蘊含的資訊,關鍵技術正是情感分析。在眾多文獻研究中,大多數著重於改善情感分析技術,較少看到專門研發情感分析工具的研究。我們認為有一套可直接執行情感分析的工具能帶來實質且具體的效益,因此將研究重點聚焦於開發情感分析開源工具。
本研究開發的工具希望能符合實用性與效能兩大目標。本研究透過探索過往情感分析文獻、訂立情感分析架構和調查現有情感分析工具,確立所要開發的工具特性,包含提供句子情感分類、屬性術語提取與屬性情感分類功能,處理繁體中文的分析,並主要基於順序遷移學習中的預訓練搭配微調模式,設計適合本研究的預訓練學習策略和微調模型架構,同時建立消費者評論資料集作為訓練測試數據。
藉由本研究制定的四類型實驗,分別驗證了預訓練策略的有效性、微調配置的合適性、所研發工具的可靠性,以及開發繁體中文工具的有用性,實驗結果證實我們設計的訓練策略與相關配置能勝過開源預訓練模型,並有助於提高模型能力;另外,與其它工具和經典論文方法進行比較,本研究所開發之工具senti_c在兩個資料集上的各項指標表現都優於比較對象,顯示senti_c對於處理情感分析問題能達到一定效能、提供更良好的分析結果;除此之外,透過測試各工具對於處理繁體與簡體中文文本的性能差異,可驗證本研究提供的繁體中文工具確實具有實用價值;最後,我們將經過完善測試的senti_c套件發佈至PyPI (pypi.org),一般大眾皆能自由下載運用。
Large amounts of user comments and reviews on products, services, and events are readily accessible on social media and e-commerce platforms. These text data contain valuable information for individuals or organizations. Sentiment analysis facilitates the analysis of large amounts of unstructured review data, and may benefit consumers and business alike. Previous studies have accumulated large amounts of technical approaches for sentiment analysis. However, to the best of our knowledge, few high-quality open-source sentiment analysis tools are available for Traditional Chinese. To fill this gap, this thesis aims at developing an open-source toolkit for analyzing sentiment in Traditional Chinese text.
We conducted an extensive review on the sentiment analysis literature and developed a sentiment analysis framework. A review of existing tools using this framework allows us to establish the main functionality of senti_c, a high-quality open-source sentiment analysis toolkit. The senti_c toolkit is a Python-based library that provides three main functions: sentence-level sentiment classification, aspect terms extraction, and aspect-level sentiment classification. We developed our own training data and adopted the sequential transfer learning approach to develop the machine learning-based prediction module based on the transformer-based deep learning natural language models. We conducted extensive experiments based on different variations of pre-training and fine-tuning strategies. Our experimental results showed that the training strategies we designed delivered models that outperformed current state-of-the-art open-source pre-training models. Moreover, senti_c consistently performed better than other baseline methods and toolkits currently available. While the main training data is in traditional Chinese, senti_c also has good performance for simplified Chinese. The senti_c toolkit is available from PyPI (pypi.org).
URI: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/52642
DOI: 10.6342/NTU202002535
全文授權: 有償授權
顯示於系所單位:資訊管理學系

文件中的檔案:
檔案 大小格式 
U0001-0608202014285700.pdf
  目前未授權公開取用
5.96 MBAdobe PDF
顯示文件完整紀錄


系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。

社群連結
聯絡資訊
10617臺北市大安區羅斯福路四段1號
No.1 Sec.4, Roosevelt Rd., Taipei, Taiwan, R.O.C. 106
Tel: (02)33662353
Email: ntuetds@ntu.edu.tw
意見箱
相關連結
館藏目錄
國內圖書館整合查詢 MetaCat
臺大學術典藏 NTU Scholars
臺大圖書館數位典藏館
本站聲明
© NTU Library All Rights Reserved