請用此 Handle URI 來引用此文件:
http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/80374| 標題: | 針對基因分析進行系統架構與效能優化,以開源醫學分析軟體bigsnpr 為例 Performance Optimization on Genetic Analysis A Case Study on bigsnpr |
| 作者: | I-Ping Chou 周逸平 |
| 指導教授: | 洪士灝(Shih-Hao Hung),張原豪(Yuan-Hao Chang) |
| 關鍵字: | 基因關聯資料分析,高效能系統,平行處理,分散式系統,bigsnpr, Genomewide Association study,Highperformance Computing,Parallel Processing,Distributed Systems,bigsnpr, |
| 出版年 : | 2021 |
| 學位: | 碩士 |
| 摘要: | 自基因定序技術被發明以來,研究者與生物學家在基因組關聯分析上開啟了一個全新的紀元。隨著次世代定序技術的成長,基因資料的規模也隨之成指數成長。於此,分析基因關聯資料需要日益龐大的儲存空間以及巨大的計算能力,讓如何有效利用多種加速器以及合理的存取資料的重要性漸漸地浮出水面。以一個在台大醫學院使用bigsnpr程式庫所打造的基因分析應用為例,bigsnpr自資料前處理、SNPs篩選到統計分析,提供研究者們多種當前研究上常使用的分析工具,但是在一般電腦上對於由46萬個基因、8萬個樣本所構成痛風基因資料庫進行分析之時,超過三週仍未獲得結果,嚴重延誤該研究團隊的研究進度。 為了協助該團隊解決上述問題,本研究深入探討bigsnpr的內部架構與效能表現,並利用多種分析工具找出其效能瓶頸。我們發現,在缺失資料差補階段中所使用的bigsnpr函式snp_fastImpute()在進行平行計算的時候並未充分最佳化,導致在不同處理機核心上的計算工作之間必須進行大量的資料交換,而且該函式中所使用的XGBoost演算法應可利用GPU獲得更佳的效能。因此,我們提出幾種效能改進方案,分別針對CPU、GPU以及分散式系統提出了相對應的軟體架構。其中對應CPU的改進版本,在八核心的Intel處理機上成功達成6倍以上的效能提升;對應GPU的改進版本,在TitanV GPU上達成超過12倍的加速;在國家高速計算機中心的台灣杉二號上,以八個四核心的CPU節點執行我們的分散式版本時,可獲得超過20倍的速度提升,並且觀察到高擴展性(scalability),因此能利用50個4核心的節點在一個小時內完成原版本在三週內無法完成的計算工作,大幅改善該研究團隊的進度。 |
| URI: | http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/80374 |
| DOI: | 10.6342/NTU202100961 |
| 全文授權: | 同意授權(限校園內公開) |
| 顯示於系所單位: | 資料科學學位學程 |
文件中的檔案:
| 檔案 | 大小 | 格式 | |
|---|---|---|---|
| U0001-0606202116370900.pdf 授權僅限NTU校內IP使用(校園外請利用VPN校外連線服務) | 1.7 MB | Adobe PDF |
系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。
