請用此 Handle URI 來引用此文件:
http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/5254
標題: | 應用潛藏面相評分分析於中文評論:使用局部潛藏狄利克雷分配方法 Latent Aspect Rating Analysis on Chinese Reviews: A Local LDA Based Approach |
作者: | Kai-Ti Chang 張凱迪 |
指導教授: | 盧信銘(Hsin-Min Lu) |
關鍵字: | 文字探勘,潛在面向評分分析,潛藏狄利克雷分配,潛藏評分迴歸模型,情感分析,意見探勘,評論分析, text mining,Latent Aspect Rating Analysis,Latent Dirichlet Allocation,Latent Rating Regression Model,sentiment analysis,opinion mining,review mining, |
出版年 : | 2014 |
學位: | 碩士 |
摘要: | 隨著網路科技的高速發展,網路上充滿著各式各樣的評論。如何針對這些非結構的資料進行分析也顯得日漸重要。然而在這些服務或產品評論當中,往往使用者只留下對於產品或服務的整體評論分數(overall rating),而沒有針對服務或產品的各主題面向(topical aspect)做分數的評比或是揭露使用者對於產品或服務的某一種主題面向的權重(weight),這樣對於使用者的幫助有限。而藉由分析文件的主題面向分數(topical aspect rating)和其權重(weight)的問題稱為潛藏面向評分分析(Latent Aspect Rating Analysis,簡稱:LARA)。
本研究試圖使用局部潛藏狄利克雷分配(Local Latent Dirichlet Allocation,簡稱:Local LDA)和潛藏評分迴歸模型(Latent Rating Regression,簡稱:LRR)將LARA分析應用於中文評論上。實驗共分為兩階段模型,第一階段使用Local LDA將經過前處理的評論內文進行面向的切割和和面向擷取,之後第二階段運用LRR模型以類似EM算法的形式試圖推論出文件的主題面向分數(topical aspect rating)和其權重(weight)。 本研究將使用華文最大的旅遊網站攜程網旅遊評論和全球最大的旅遊評論網站TripAdvisor為分析資料集,其中攜程網資料為使用網路爬蟲擷取後整理而成。實驗中我們可以發現Local LDA的方法比起Bootstrap相對較好,且Local LDA屬於非監督式學習,毋須人工手動設定種子關鍵詞,可以讓整個應用更加廣泛。 As the growth of web technology, it’s an important task to mine the detailed information in the online reviews. Most reviewers only rating the entity with overall rating; however, it’s not enough for users to learn more from the reviews. As a result, there is a new problem called Latent Aspect Rating Analysis in text mining which analyzes latent aspect and latent aspect weight simultaneously. In this research, we apply the LARA on the Chinese reviews. We use the Local LDA(unsupervised learning) and LRR model to analyze the online reviews. In the first stage, we use the Local LDA method on the review contexts to conduct the aspect segmentation after preprocessing. After the aspect segmentation, we can get the aspects and aspect representative words. In the second stage, we use the LRR model to infer the latent aspect rating and latent aspect weight. Our experiment uses the Ctrip and TripAdvisor online reviews as the dataset. The results demonstrate the Local LDA + LRR method has some advantage on Chinese LARA problems. |
URI: | http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/5254 |
全文授權: | 同意授權(全球公開) |
顯示於系所單位: | 資訊管理學系 |
文件中的檔案:
檔案 | 大小 | 格式 | |
---|---|---|---|
ntu-103-1.pdf | 1.74 MB | Adobe PDF | 檢視/開啟 |
系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。