請用此 Handle URI 來引用此文件:
http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/23581
標題: | 使用網路搜尋引擎歷史資料預測使用者未來行為 Predicting a Web Search Engine User's Future Behavior using Query Log |
作者: | Hsin-Yih Lin 林欣毅 |
指導教授: | 陳信希(Hsin-Hsi Chen) |
關鍵字: | 歷史搜尋記錄,資料檢索,問句預測,超連結預測,機器學習,資料探勘, Query log,Information retrieval,Query prediction,Hyperlink prediction,Machine learning,Data mining, |
出版年 : | 2011 |
學位: | 碩士 |
摘要: | 在這個研究裡,我們設計幾種方法用來預測網路搜尋引擎使用者未來的一連串行為,例如使用的問句或是點選的網頁超連結。以實用面來講,預測結果可以用來和網路搜尋引擎融合在一起,以便協助搜尋引擎使用者。
我們使用的語料庫是微軟的2006年搜尋引擎紀錄。我們把語料庫分成訓練集以及測試集,以便我們使用機器學習的方式。在這個研究裡,我們提出四種不同的預測方法:WTAL、SRPF、SRPP與ACTF。WTAL的概念是使用問句和網頁超連結之間的同時出現關係。SRPF和SRPP則是包含傳統的資訊檢索技術。ACTF是一種使用PageRank的方法。我們也將這四種方法融合在一起使用。 實驗結果告訴我們,WTAL是四種方法中最好的方法。不過,把數種方法融合在一起的效果比使用個別的方法好。更進一步的分析顯示,使用使用者所有的歷史搜尋紀錄帶來的效果不一定會比只使用使用者最新的紀錄來得好。我們更加發現,當一筆使用者搜尋紀錄裡的問句數量多時,預測該筆資料裡的使用者行為的難度將會提高。 In this study, we devise methods to predict the future search action (i.e., query or clicked URL) sequence of a search engine user. These predictions have the potential application of being integrated into a web search engine to facilitate a search engine user’s search process. The corpus used is the Microsoft query log dataset containing search sessions in 2006. The corpus is divided into a training dataset and a test dataset for our machine-learning methods. We propose four methods: WTAL, SRPF, SRPP and ACTF. WTAL is based on the concept of the co-occurrence relationship between past queries and clicked URLs. Both SRPF and SRPP incorporate information retrieval methodologies into their algorithms. ACTF is a graph-based method employing PageRank. We further merge several of our methods together. Experimental results show that WTAL has the best individual method performance. However, the combination of the methods together outperforms individual methods. Additional analysis reveals that using every query and URL that a user has already submitted or clicked on in a session does not necessarily produce a better prediction performance than using only the user’s most recent actions. It is also found that it is harder to predict future queries and clicked URLs for sessions with more queries than for sessions with fewer queries. |
URI: | http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/23581 |
全文授權: | 未授權 |
顯示於系所單位: | 資訊工程學系 |
文件中的檔案:
檔案 | 大小 | 格式 | |
---|---|---|---|
ntu-100-1.pdf 目前未授權公開取用 | 328.92 kB | Adobe PDF |
系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。