Please use this identifier to cite or link to this item:
http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/47400
Title: | 從搜尋記錄自動建立多層級語料應用於搜尋排序學習 Automatic Construction of a Multi-Level Corpus from Search Query Logs for Learning to Ranking Applications |
Authors: | Hung-Sheng Huang 黃鴻昇 |
Advisor: | 陳信希 |
Keyword: | 搜尋記錄,排序學習,點擊行為,相關度估計,效能評估, Query Log,Learning to Rank,User Click Behavior,Relevance Estimation,Performance Evaluation, |
Publication Year : | 2010 |
Degree: | 碩士 |
Abstract: | 本論文主旨為提出自動生成網頁相關度語料的方法,並驗證此語料可以應用於搜尋排序學習。
人工標記網頁相關度語料需要相當大的花費,且與真實搜尋所需不完全相符,因此本論文擬藉由搜尋記錄中大量的真實搜尋行為,自動建立網頁相關度語料。首先介紹兩個使用到的外部資源:微軟研究院的搜尋記錄,與微軟亞洲研究院所建立的人工標記語料LETOR。接著介紹從搜尋記錄中挑選樣本的方法及理由,以及不同估計網頁相關度的方法。其次是如何依循搜尋記錄取得網頁內容,以及針對挑選出的關鍵詞集合與網頁集合進行特徵值抽取。最後介紹排序學習,以及使用的演算法之特徵與嘗試的參數範圍。 第一個實驗的目的在於驗證自動生成語料的品質、以及找出最佳的設定方式。我們發現所提出的方法確實能自動產生具有一定品質的語料,且能應用於多種演算法上,同時也發現點擊機率是不錯的相關度估計參考標準。第二個實驗的目的在於驗證自動生成的語料,能用於評估排序學習演算法間的效能差異。我們發現使用自動生成語料作為訓練,能得到與使用人工標記語料作為訓練相同的效能差異,因此具有潛能取代人工標記語料,以節省建立語料的花費。 |
URI: | http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/47400 |
Fulltext Rights: | 有償授權 |
Appears in Collections: | 資訊工程學系 |
Files in This Item:
File | Size | Format | |
---|---|---|---|
ntu-99-1.pdf Restricted Access | 1.1 MB | Adobe PDF |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.