Skip navigation

DSpace

機構典藏 DSpace 系統致力於保存各式數位資料(如:文字、圖片、PDF)並使其易於取用。

點此認識 DSpace
DSpace logo
English
中文
  • 瀏覽論文
    • 校院系所
    • 出版年
    • 作者
    • 標題
    • 關鍵字
  • 搜尋 TDR
  • 授權 Q&A
    • 我的頁面
    • 接受 E-mail 通知
    • 編輯個人資料
  1. NTU Theses and Dissertations Repository
  2. 管理學院
  3. 資訊管理學系
請用此 Handle URI 來引用此文件: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/84724
標題: 仇恨性言論偵測及仇恨性用戶分析
Who is the Hate-Speech Speaker? Hate Speech Detection and User-Level Analysis
作者: 陳君儒
Chun-Ju Chen
指導教授: 盧信銘
Hsin-Min Lu
關鍵字: 仇恨性言論偵測,分類模型,用戶分析,社群平臺,自然語言處理,
hate speech detection,text classification task,user analysis,online social network,natural language processing,
出版年 : 2022
學位: 碩士
摘要: 近年來,網路仇恨性言論受到各社群平臺的重視,仇恨性言論偵測亦成為國際上之一項研究主題;然而,仇恨性言論偵測在華語使用圈中受到的重視遠不及西方社會,目前仇恨性言論偵測所使用的資料集仍多為推特上的英文留言,忽略了其他語系。有鑑於此,本研究欲建立華文仇恨性言論偵測模型並進行華文仇恨性用戶之分析。本研究提出了新的華文仇恨性言論資料集 PTT_HateSpeech,使用臺灣之電子布告欄系統 PTT 作為資料來源,收集 12 個月的資料,並人工標記了 38,950 則推文。我們根據此資料集訓練了分類模型來進行性別歧視相關之仇恨性言論偵測,最終之平均 F1-score 為 0.5976。透過訓練結果,我們將模型應用在使用者分析上,探討仇恨性用戶和一般用戶在網路使用習慣上之不同,並發現仇恨性用戶有群聚現象,且傾向於使用較為激烈和情緒性之字眼。本研究旨在提供臺灣本地之仇恨性言論資料集,補齊現階段研究中缺乏的華文資料集,並且從自然語言處理的角度分析臺灣網路社群之生態。
Hate speech (HS) is an increasing problem worldwide, and HS detection is an urgent issue. However, only few related studies have been addressed in East Asia society. The majority of research resources are Twitter corpora in English, which may only provide hateful content generated from English users and ignore diverse cultural features. Therefore, in this work, we develop PTT_HateSpeech, a novel sexism HS dataset collected from a Taiwanese bulletin board system named PTT (telnet://ptt.cc), to analyze Chinese linguistic patterns in HS detection task. The dataset contains 38,950 comments across 12 months with hand-annotated “hateful” or “non-hateful”. We train classification models to detect HS, and the average F1-score is 0.5976. Equipped with the proposed model, we conduct further user behavior analysis and sentiment analysis to compare hateful users and normal users. We find out that (1) intensive interactions can be observed in the group of hateful users, and (2) hateful users tend to use fiercer and angrier words, showing low-valence but high-arousal emotions. Our research bridges the gap by covering Taiwanese local data in the investigation, and we present a comprehensive study of Taiwanese online ecology from the field of natural language processing.
URI: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/84724
DOI: 10.6342/NTU202203125
全文授權: 同意授權(限校園內公開)
電子全文公開日期: 2022-09-06
顯示於系所單位:資訊管理學系

文件中的檔案:
檔案 大小格式 
ntu-110-2.pdf
授權僅限NTU校內IP使用(校園外請利用VPN校外連線服務)
2.33 MBAdobe PDF檢視/開啟
顯示文件完整紀錄


系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。

社群連結
聯絡資訊
10617臺北市大安區羅斯福路四段1號
No.1 Sec.4, Roosevelt Rd., Taipei, Taiwan, R.O.C. 106
Tel: (02)33662353
Email: ntuetds@ntu.edu.tw
意見箱
相關連結
館藏目錄
國內圖書館整合查詢 MetaCat
臺大學術典藏 NTU Scholars
臺大圖書館數位典藏館
本站聲明
© NTU Library All Rights Reserved