請用此 Handle URI 來引用此文件:
http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/27204
標題: | 兩種進行相關性分析的方法:(1) 群聚單倍體之概似函數檢定;(2) 核函數之典型相關分析 Two Methods in Association Analysis: (1) Likelihood Ratio Test with Clustered Haplotypes (2) Kernel Canonical Correlation Analysis |
作者: | Mei-Hsien Lee 李美賢 |
指導教授: | 蕭朱杏 |
關鍵字: | 相關性檢定,生物資訊,群聚,演化,單倍體,單倍體組成不明確,核函數之典型相關性分析,概似函數,統計學習,SNP, association study,bioinformatics,clustering,evolution,haplotype,haplotype ambiguous,kernel canonical correlation,likelihood function,statistical learning,SNP, |
出版年 : | 2008 |
學位: | 博士 |
摘要: | 相關性分析(association analysis)是常見的統計方法,例如:近年來探索複雜性疾病(complex disease)常利用基因與遺傳性狀之間的相關性來尋找影響性狀的基因位置,這種研究方法又稱為相關性研究(association study),而機器學習理論主要在探究兩群多維資料的相關分析。
在相關性研究方面,若以實驗設計及研究對象的選取方式來區分,有兩種主要的研究方法:第一種是以族群資料為主的病例對照研究(population-based case-control study),另一種是以家庭資料為主的相關性研究(family-based association study)。過去的研究與常用之遺傳統計分析,常將這兩種研究方法分開討論,並獨立發展各自專屬的應用軟體;至於分析的方法則又可分為無母數統計方法與有母數統計方法。但是,不論哪一種方法,在遇到單倍體頻率過低、維度太高、以及資料量過大時,皆有運用上的困難。本論文的第一個研究目的將針對單倍體資料,透過概似函數的概念,引入演化的觀點,將屬於同源祖先的單倍體群聚為一類,降低模式中參數的維度,並考慮下傳與不下傳之單倍體的不確定性;來解決因單倍體資料組成不明確(ambiguity)導致模式參數過多、檢定力不佳、效率不高(not efficient)的問題,以提升相關性研究方法的檢定力,進而萃取複雜性疾病中具有微量效應的遺傳因子。最後以家族資料的模擬研究呈現此方法在各種情況下的型一誤差與檢定力。 本論文的第二部分將針對大型資料,以統計學習理論(statistical learning theory)的觀點,討論兩組多維變數之間的相關性。這一部分研究的重點將以生物資訊為主要考量。Hotelling (1936)提出的典型相關分析(canonical correlation analysis)可以量度兩組多變量資料(multivariate data)之間的線性關係,然而當兩組資料不是呈現線性相關、或是資料非多維常態分佈時,典型相關分析的方法就無法適切地擷取資料所富含的訊息,因此,本研究提出核函數之典型相關性分析方法(kernel canonical correlation analysis, KCCA)以量度兩組資料之相關程度,且進一步檢定兩組資料之相關性;此外,本研究引入基底選取的概念,將更能有效處理大量資料在運算上的問題;除此之外,採用KCCA分析大型資料或是全基因體資料(genome-wide)的相關性問題,將可避開單倍體型式與頻率無法估計的問題,最後,將以模擬研究與兩個例子說明此方法在相關性檢定與分類研究上的執行成果。 Association analysis is a common method in statistical analysis. For instance, to investigate the association between diseases and genetic markers, scientists conduct association studies to detect the liability loci. This kind of studies is called association studies. There are basically two different study designs, the population-based case-control studies and the family-based association studies. Researches usually focus on a specific study design and then develop methodology for analysis. Current statistical analysis can be categorized roughly to nonparametric and parametric methods. Difficulties arise, however, when some haplotypes are with small frequencies, when degree of freedom in the association test is large, and when the size of data is enormous. In the first part of this thesis, we will adopt the parametric likelihood approach, use the evolutionary clustering tool for minor haplotypes, reduce the dimensionality corresponding to the number of haplotypes, and take into account the uncertainty in the transmission phase. Simulation studies and comparison with Famhap and FBAT show that the likelihood ratio test with clustered haplotypes outperforms. The second part of this thesis tackles the association test from the perspective of statistical learning theory. The emphasis of this part is more on the bioinformatics viewpoint. To measure the association between two sets of random variables, Hotelling (1936) proposed the classical linear canonical correlation analysis (LCCA). However, its application is limited to linear association and normality assumption. We introduce a nonparametric kernel canonical correlation analysis (KCCA) for nonlinear association measures between two sets of variables and propose a new independence test under KCCA. The KCCA can be applied directly on genotype data, and avoid the inference of haplotype phase and estimation of haplotype frequencies. Implementation issues are discussed and numerical experiments with other nonparametric methods are presented. |
URI: | http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/27204 |
全文授權: | 有償授權 |
顯示於系所單位: | 流行病學與預防醫學研究所 |
文件中的檔案:
檔案 | 大小 | 格式 | |
---|---|---|---|
ntu-97-1.pdf 目前未授權公開取用 | 670.07 kB | Adobe PDF |
系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。