Skip navigation

DSpace

機構典藏 DSpace 系統致力於保存各式數位資料(如:文字、圖片、PDF)並使其易於取用。

點此認識 DSpace
DSpace logo
English
中文
  • 瀏覽論文
    • 校院系所
    • 出版年
    • 作者
    • 標題
    • 關鍵字
    • 指導教授
  • 搜尋 TDR
  • 授權 Q&A
    • 我的頁面
    • 接受 E-mail 通知
    • 編輯個人資料
  1. NTU Theses and Dissertations Repository
  2. 電機資訊學院
  3. 電信工程學研究所
請用此 Handle URI 來引用此文件: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/55439
標題: 基於偏差訓練資料的穩定分類
Robust Statistical Classification from Mismatched Training Data
作者: Hung-Wei Hsu
許泓崴
指導教授: 王奕翔(I-Hsiang Wang)
關鍵字: 群眾外包,假說檢定,資料產生的機率分布差異,匿名性,
Crowd Sourcing,Hypothesis Testing,Training-Testing Mismatch,Anonimity,
出版年 : 2020
學位: 碩士
摘要: 在許多現實生活的應用如群眾外包以及機器學習領域中,訓練資料 以及測試資料未必會由同樣一組機率分布產生。在本論文中,我們為 此探討一個對於這種資料產生的機率分布差異下仍能達到穩定表現的 決策方法。我們用漸進分析的方法來探討這種架構下的理論極限。
有別於傳統的假說檢定之下我們已知所有資料產生的機率分布,我們考慮一個二元假說檢定的框架,從兩種可能假說的機率分布P0, P1之中獨立抽樣出兩個訓練資料序列,然後我們想要區分另一個測試資料序列是從P̃0或是P̃1之中抽樣來的。而這組產生測試資料序列的機 率分布我們假設和P0以及P1各自有一個可能的誤差。這樣的誤差描 述了資料產生的機率分布差異,並且我們用歐式空間中的模來量測此 誤差的多寡,在此誤差之下,我們推導出漸進最佳的決策方法並且分 析其最佳的錯誤率冪次,並且比較錯誤率的冪次並刻劃資料產生的機 率分布差異所造成的影響。最後我們擴展結過到多元假說檢定的架構 並且把我們的結果和異質性群眾外包的問題做連結。
In many real world applications such as crowdsourcing, machine learn- ing and distributed detection, the training and testing data might be generated from different distributions. In this thesis, we capture this property by consid- ering a robust version of statistical classification from empirically observed statistics with respect to this training-testing difference. We explore the fun- damental limit of this setting in the asymptotic regime where the number of samples goes to infinity and the ratio of training data and testing data is fixed.
Unlike classical hypothesis testing where the underlying distributions are available, we first consider a binary setting where only i.i.d. sequences of observations are drawn from two candidate distributionsP0, P1. The goal is to classify another sequence which is known to be drawn i.i.d. from P̃0, P̃1 which are slightly deviated from P0, P1. The deviation might be considered as the mismatch between distributions in training and testing phases and the mismatch is measured by the norm of deviation in Euclidean space. We derive the asymptotically optimal test under its setting and its error exponents are compared with other regimes of statistical classification problems. We also extend the results to multiple hypothesis testing and relate to heterogeneous crowdsourcing applications.
URI: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/55439
DOI: 10.6342/NTU202002069
全文授權: 有償授權
顯示於系所單位:電信工程學研究所

文件中的檔案:
檔案 大小格式 
U0001-2907202023112000.pdf
  未授權公開取用
1.49 MBAdobe PDF
顯示文件完整紀錄


系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。

社群連結
聯絡資訊
10617臺北市大安區羅斯福路四段1號
No.1 Sec.4, Roosevelt Rd., Taipei, Taiwan, R.O.C. 106
Tel: (02)33662353
Email: ntuetds@ntu.edu.tw
意見箱
相關連結
館藏目錄
國內圖書館整合查詢 MetaCat
臺大學術典藏 NTU Scholars
臺大圖書館數位典藏館
本站聲明
© NTU Library All Rights Reserved