Skip navigation

DSpace

機構典藏 DSpace 系統致力於保存各式數位資料(如:文字、圖片、PDF)並使其易於取用。

點此認識 DSpace
DSpace logo
English
中文
  • 瀏覽論文
    • 校院系所
    • 出版年
    • 作者
    • 標題
    • 關鍵字
  • 搜尋 TDR
  • 授權 Q&A
    • 我的頁面
    • 接受 E-mail 通知
    • 編輯個人資料
  1. NTU Theses and Dissertations Repository
  2. 電機資訊學院
  3. 資訊工程學系
請用此 Handle URI 來引用此文件: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/61103
標題: 以主動採樣對和點解決大型線性二分排行
Active Sampling of Pairs and Points for Large-scale Linear Bipartite Ranking
作者: Wei-Yuan Shen
沈暐原
指導教授: 林軒田(Hsuan-Tien Lin)
關鍵字: 機器學習,二分排行,二元分類,大型資料,主動學習,
bipartite ranking,binary classification,large-scale,active learning,AUC,
出版年 : 2013
學位: 碩士
摘要: 二分排行(Bipartite Ranking) 是一種在機器學習中基礎的排行 (Ranking) 問題,其目的在從輸入資料中學習如何將相關的樣品正確的排在非相關樣品之前。對式 (Pair-wise) 解法是其中一種解決二分排行的主要方式,它將二分排行問題轉變成在樣品「對」的二元分類 (Binary Classification) 問題,以學習在一對樣品中何者該排在另一物之前的模型來解決二分排行問題。然而,這類方法通常不適用於大型的輸入資料,因為「對」的數目往往是輸入資料大小的平方,過量的「對」會造成計算資源不足而無法解決問題。另一方面,點式(Point-wise) 也是一種解決二分排行的常見方式,它以樣品「點」的二元分類問題來近似二分排行問題,在輸入資料中學習樣品「點」是否相關。因為「點」的數量往往遠小於「對」的數量,使得這類方法可以用於大型資料上,但是可能會得到較低的正確率。綜合以上討論,我們了解要正確且有效率的解決大型二分排行問題是一件困難的工作。因此,在這篇論文中,我們提出了結合二分排行與二元分類的架構 (Combined Ranking and Classification) 以正確得解決二分排行問題。這個架構利用了將「點」視為一種「虛對」的想法,融合了對式與點式的二分排行方法。除此之外,為了有效率的解決大型二分排行問題,我們在 CRC 的架構下設計了主動採樣(Active Sampling) 演算法。此方法設計的想法來自於機器學習中的主動學習 (Active Learning) 問題,這個採樣法讓我們在大量的樣品「對」中只利用少量的樣品「對」有效率的達到不錯的正確率。最後,在14 個現實大型資料集中,實驗結果顯示我們所提出的主動採樣對和點演算法搭配上線性支持向量機 (SVM) 可以有效率的解決大型二分排行問題,且通常達到比目前許多先進的二分排行演算法還要高的準確性。
Bipartite ranking is a fundamental ranking problem that learns to order relevant instances ahead of irrelevant ones. One major approach for bipartite ranking, called the pair-wise approach, tackles an equivalent binary classification problem of whether one instance out of a pair of instances should be ranked higher than the other. Nevertheless, the number of instance pairs constructed from the input data could be quadratic to the size of the input data, which makes pair-wise ranking generally infeasible on large-scale data sets. Another major approach for bipartite ranking, called the point-wise approach, directly solves a binary classification problem between relevant and irrelevant instance points. This approach is feasible for large-scale data sets, but the resulting ranking performance can be inferior. That is, it is difficult to conduct bipartite ranking accurately and efficiently at the same time. In this thesis, we propose a general Combined Ranking and Classification (CRC) framework to accurately conduct bipartite ranking. The framework unifies point-wise and pair-wise approaches and is simply based on the idea of treating each instance point as a pseudo-pair. Moreover, we develop a novel scheme within the framework to conduct bipartite ranking efficiently. The scheme, called Active Sampling, is inspired from the rich field of active learning and can reach a competitive ranking performance while focusing only on a small subset of the many pairs during training. Experiments on 14 real-word large-scale data sets demonstrate that the proposed algorithm of Active Sampling within CRC, when coupled with a linear Support Vector Machine, usually outperforms state-of-the-art point-wise and pair-wise ranking approaches in terms of both accuracy and efficiency.
URI: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/61103
全文授權: 有償授權
顯示於系所單位:資訊工程學系

文件中的檔案:
檔案 大小格式 
ntu-102-1.pdf
  目前未授權公開取用
516.06 kBAdobe PDF
顯示文件完整紀錄


系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。

社群連結
聯絡資訊
10617臺北市大安區羅斯福路四段1號
No.1 Sec.4, Roosevelt Rd., Taipei, Taiwan, R.O.C. 106
Tel: (02)33662353
Email: ntuetds@ntu.edu.tw
意見箱
相關連結
館藏目錄
國內圖書館整合查詢 MetaCat
臺大學術典藏 NTU Scholars
臺大圖書館數位典藏館
本站聲明
© NTU Library All Rights Reserved