Skip navigation

DSpace

機構典藏 DSpace 系統致力於保存各式數位資料(如:文字、圖片、PDF)並使其易於取用。

點此認識 DSpace
DSpace logo
English
中文
  • 瀏覽論文
    • 校院系所
    • 出版年
    • 作者
    • 標題
    • 關鍵字
    • 指導教授
  • 搜尋 TDR
  • 授權 Q&A
    • 我的頁面
    • 接受 E-mail 通知
    • 編輯個人資料
  1. NTU Theses and Dissertations Repository
  2. 公共衛生學院
  3. 流行病學與預防醫學研究所
請用此 Handle URI 來引用此文件: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/65811
標題: 利用穩健重覆排序方法偵測表現差異及其應用於分析混合樣本之全基因體掃描資料
A Robust Re-Rank Approach with Application to Pooling-Based GWA Study Data
作者: Jia-Rou Liu
劉佳柔
指導教授: 洪弘(Hung Hung)
關鍵字: 大p小n,降維度分析,特徵選取,過濾法,rank-over-variable,random subset,
large-p-small-n,dimension reduction,feature selection,filter method,rank-over-variable,random subset,
出版年 : 2012
學位: 碩士
摘要: 近年來隨著研究技術的蓬勃發展, 研究者愈來愈容易取得同時含有成千上萬個變項個數的資料庫, 使得樣本個數相較之下變得非常小。在這種變項個數遠大於樣本個數的情況之下, 傳統常用來偵測兩組差異的 t 統計量會因為變異估計不夠穩定而不太適用。另一方面, 同樣是用來偵測兩組差異的 ROC 曲線下面積 (AUC), 雖然屬於較不受分配限制的無母數方法, 仍然會因為重覆數值出現的頻率太高, 造成排序挑選的困擾。為了兼顧檢定力和穩健力, 改變傳統給定排序值的方法, 將其重新定義為在同一樣本內不同變項之間的排序, 會更加適用。在此研究中, 我們提出一種重覆排序方法, 以「rank-over-variable」概念為基礎, 再配合「random subset」和「re-rank」兩種技巧, 可用來幫助研究者在分析變項個數遠大於樣本個數的資料型態時,能有效挑選出在兩組間有差異的變項。為了評估此方法,我們以 GAIN-MDD 資料檔為基礎進行模擬分析,驗證相較於 t 統計量和 AUC,我們所提出的重覆排序方法能更有效地偵測出真正在兩組間有差異的變項,同時也較不容易受到小樣本數和實驗誤差的影響。最後, 我們實際將新方法應用於混合樣本之全基因體掃描研究, 偵測出可能與雙極性情感疾病相關的基因, 提供研究者進行更進一步的探討。
Recently, more and more researches encounter the problem where the data objects have an extremely large number of variables while the available sample size is relatively small. To detect the difference between two populations in this situation, the widely used two sample t-test would fail to apply due to its instability in estimating variances. The non-parametric counterpart, AUC, will face the problem of tied values and also fail. To improve the detection power while keeping the robustness, the idea of ``rank-over-variable' is more appropriate to analyze large-p-small-n datasets. In this study, we propose a robust re-rank approach to overcome the above-mentioned difficulties and reduce the influence of enormous features in the large-$p$-small-$n$ situation. In particular, we obtain a rank-based statistic for each feature based on the concept of 'rank-over-variable'. Techniques of 'random subset' and 're-rank' are then iteratively applied to ranking features. Finally, the leading features in the constructed ranking list will be selected for further research. To evaluate the performance of our proposed re-rank approach, we conduct several simulation studies based on the GAIN-MDD dataset. Compared with the t-statistic and AUC, our re-rank approach is able to identify more pre-defined truly relevant SNPs and robust for different pool number and pooling error. Furthermore, we also demonstrate a real data analysis to explore the markers associated with bipolar disorder.
URI: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/65811
全文授權: 有償授權
顯示於系所單位:流行病學與預防醫學研究所

文件中的檔案:
檔案 大小格式 
ntu-101-1.pdf
  未授權公開取用
2.77 MBAdobe PDF
顯示文件完整紀錄


系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。

社群連結
聯絡資訊
10617臺北市大安區羅斯福路四段1號
No.1 Sec.4, Roosevelt Rd., Taipei, Taiwan, R.O.C. 106
Tel: (02)33662353
Email: ntuetds@ntu.edu.tw
意見箱
相關連結
館藏目錄
國內圖書館整合查詢 MetaCat
臺大學術典藏 NTU Scholars
臺大圖書館數位典藏館
本站聲明
© NTU Library All Rights Reserved