請用此 Handle URI 來引用此文件:
http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/5229
標題: | 應用時間演化主題多管道潛藏狄利克雷分配推薦主題標籤 Recommending Hashtags Using Topics over Time Multiple Channel Latent Dirichlet Allocation |
作者: | Chien-Hua Lee 李健華 |
指導教授: | 盧信銘(Hsin-Min Lu) |
關鍵字: | 社交網絡,推特,主題標籤,推薦系統,主題模型, Social Network,Twitter,Hashtags,Recommendation System,Topic Model, |
出版年 : | 2014 |
學位: | 碩士 |
摘要: | 隨著社交網絡的盛行,有越來越多的使用者加入,其中所包含的資訊量更是迅速的成長。為了有效且快速的分類和搜尋推文(tweet),推特(Twitter)的用戶使用主題標籤(hashtag)來標記並歸類推文。由於添加主題標籤不是一項自動化的程序,絕大部分的推文都沒有使用主題標籤,在我們的研究中更只有15%的推文有使用,大大的降低其價值。故本研究希望提出一個主題標籤的推薦系統,在使用者輸入完推文後,能自動產生一組合適的主題標籤以供選擇,提升主題標籤的覆蓋率。
本研究以主題模型(topic model)為基礎,加入時間群集(temporal clustering)的方法,提出時間演化主題多管道潛藏狄利克雷分配(Topic over Time Multiple Channel Latent Dirichlet Allocation,簡稱TOT-MCLDA)。此模型根據可觀察的推文資訊,針對不同時間下的潛藏主題做分群,並預測適合的主題標籤。 本研究使用三年期的推特資料進行實驗,實驗結果證明TOT-MCLDA表現優於先前研究所提出的推薦系統,能顯著的提升推薦的準確率。此外,TOT-MCLDA所建立之推文與主題標籤之間的關聯,也可作為基礎應用於其他相關研究上,增加可信度。 Along with the development of social network and the sustainable user growth, the explosion of contents provides tons of information. In order to efficiently and effectively classify tweets, users of Twitter can make use of hashtags to mark and categorize their tweets. However, most of the tweets do not contain hashtags. In addition, our research shows that there are only 15% of tweets contain hashtags, which greatly reduce the value of hashtags. Therefore, our research aims to develop a hashtag recommendation system to automatically provide hashtags according to the content of the tweet. Our research mode is constructed based on Mixed Membership Model. We further extend the model by incorporating the temporal clustering effect and propose the result model, Topics over Time Multiple Channel Latent Dirichlet Allocation (TOT-MCLDA). The insight of our model is that the text words and hashtags from one tweet have the same latent topic condition factors. In addition, tweets posted in the same period of time have higher relevance. Hence, we can make use of the tweet contents to recommend hashtags by its latent topics. Experimental results on a 3-year Twitter dataset demonstrate that the proposed method can outperform some state-of-the-art methods. |
URI: | http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/5229 |
全文授權: | 同意授權(全球公開) |
顯示於系所單位: | 資訊管理學系 |
文件中的檔案:
檔案 | 大小 | 格式 | |
---|---|---|---|
ntu-103-1.pdf | 1.15 MB | Adobe PDF | 檢視/開啟 |
系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。