請用此 Handle URI 來引用此文件:
http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/69892
標題: | 電影評論網站的水軍探測 Detection of Review Spammers for Movie Rating Websites |
作者: | Chen Chen 陳晨 |
指導教授: | 林永松 |
關鍵字: | 水軍探測,電影評分,監督分類, Spammer Detection,Movie Rating,Supervised Classification, |
出版年 : | 2018 |
學位: | 碩士 |
摘要: | 近年來中國電影產業蓬勃發展,電影評論網站的評分和評論越來越成為人們決定是否去影院觀看電影的重要依據。電影發行公司為了獲利,常會僱傭網路水軍(Review Spammer)對自己電影評分進行美化或是對競爭對手的電影進行抹黑。為了消除水軍的失真影響,還原電影的真實分數,故進行此項研究。
前人水軍識別的研究大多聚焦于社交網路和電子商務網站,但幾乎沒人涉及電影評論網站的水軍識別。我們提出了一個水軍識別分類的方法,對中國某著名的電影評論網站進行水軍探測。首先,我們結合前人的研究和該電影評論網站的特點,提出了23個分類特徵。接著我們爬取了29部被水軍污染嫌疑較高的電影的評論資料及評論者資料。利用2個分類特征進行排序,得到分層樣本,又另外隨機抽取了一個樣本進行人工標記。用這些樣本訓練的分類器對四部被水軍污染嫌疑最大的電影進行分類預測,去除被我們的模型標記為水軍的評分記錄之後,這四部電影的評分更加接近於真實分數。我們希望我們模型產生的結果可以給網站使用者以參考。 With the rapid development of Chinese film industry, movie rating website has become a significant factor when audience decide whether to see a movie in the cinema. To gain profit, some film distribution companies may hire review spammers to fame their own movies or defame the competitors' movies. To fight against review spammers and restore the authentic grade of movies, we conduct this study. Prior studies have focus on the review spam detection in social network and e-commerce. Nearly no researcher study on detection of review spam in movie rating websites. Taking a famous Chinese movie rating website as an example, we study the detection of review spammers for movie rating websites. Firstly, combining features used in prior researches and original features raised by ourselves, three types of features are proposed by us. Then, we crawl down reviews data of 29 movies, which are high possibly polluted by spammers. We also crawl down the profiles of these reviewers. Two samples gained stratifiedly and randomly are labeled by three evaluators. Classification models trained by these samples show a good performance. We sincerely hope our model can be used for reference by users. |
URI: | http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/69892 |
DOI: | 10.6342/NTU201800570 |
全文授權: | 有償授權 |
顯示於系所單位: | 資訊管理學系 |
文件中的檔案:
檔案 | 大小 | 格式 | |
---|---|---|---|
ntu-107-1.pdf 目前未授權公開取用 | 1.66 MB | Adobe PDF |
系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。