Skip navigation

DSpace

機構典藏 DSpace 系統致力於保存各式數位資料(如:文字、圖片、PDF)並使其易於取用。

點此認識 DSpace
DSpace logo
English
中文
  • 瀏覽論文
    • 校院系所
    • 出版年
    • 作者
    • 標題
    • 關鍵字
  • 搜尋 TDR
  • 授權 Q&A
    • 我的頁面
    • 接受 E-mail 通知
    • 編輯個人資料
  1. NTU Theses and Dissertations Repository
  2. 工學院
  3. 工程科學及海洋工程學系
請用此 Handle URI 來引用此文件: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/49752
標題: 以卷積神經網路分析部落格社群網站垃圾文章
Spam Filtering on Social Media Posts Using Convolutional Neural Networks
作者: Chien-Ching Chiu
邱建晴
指導教授: 丁肇隆,張瑞益
關鍵字: 社群網站,垃圾文章偵測,卷積神經網路,深度學習,
Social network,Spam detection,Convolutional neural network,Deep learning,
出版年 : 2016
學位: 碩士
摘要: 本論文提出一套基於卷積神經網路的文章過濾系統,針對痞客邦網站的部落格文章進行過濾。文章經本論文提出之系統過濾後可使讀者有更優質的閱讀體驗,也讓研究者有更純淨的繁體中文語料庫做為研究資源。
文章使用預先訓練的詞向量表進行編碼,編碼後訓練卷積神經網路對文章擷取特徵並分類,網路所輸出的分數可以對文章分類,或做為文章優劣程度的指標,其錯誤率為 8.8%,有著比統計模型的 13.7% 更好的成效。我們提供了卷積神經網路之於繁體中文文章分類的訓練方法。
在本論文使用的卷積神經網路之中,我們發現,卷積層中所擷取的特徵,與文章中重要的關鍵字有著高度的相關性。另一方面,文章經卷積與降採樣後的結果,可以直接轉做其他分類工作的輸入特徵,效果優於部分統計特徵。
This thesis proposes a blog spam filtering system, the convolutional neural network (CNN), which aims at filtering the blog posts on Pixnet. The articles that are filtered by the system mentioned in the thesis not only permits readers to have a more excellent reading experience, but also allows researchers to have a more purified traditional Chinese corpus as their resource data.
CNN is trained on Pixnet blog dataset by pre-trained word vectors for spam/non-spam classification. The score output of CNN can be considered as an index of spam level, which offers further gains in performance than statistical classification methods (error rate of 8.8% versus 13.7%). CNN configuration for training a traditional Chinese text classifier is reported in detail.
One observation in our experimental results is that the feature extracted by each filter in convolutional layer, is highly relevant to important keywords in the articles. On the other hand, the descriptors extracted from our CNN achieved an acceptable performance in another text classification task. The result is better than both roughly-tuned CNN and bag-of-words method.
URI: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/49752
DOI: 10.6342/NTU201602340
全文授權: 有償授權
顯示於系所單位:工程科學及海洋工程學系

文件中的檔案:
檔案 大小格式 
ntu-105-1.pdf
  目前未授權公開取用
9.18 MBAdobe PDF
顯示文件完整紀錄


系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。

社群連結
聯絡資訊
10617臺北市大安區羅斯福路四段1號
No.1 Sec.4, Roosevelt Rd., Taipei, Taiwan, R.O.C. 106
Tel: (02)33662353
Email: ntuetds@ntu.edu.tw
意見箱
相關連結
館藏目錄
國內圖書館整合查詢 MetaCat
臺大學術典藏 NTU Scholars
臺大圖書館數位典藏館
本站聲明
© NTU Library All Rights Reserved