Skip navigation

DSpace

機構典藏 DSpace 系統致力於保存各式數位資料(如:文字、圖片、PDF)並使其易於取用。

點此認識 DSpace
DSpace logo
English
中文
  • 瀏覽論文
    • 校院系所
    • 出版年
    • 作者
    • 標題
    • 關鍵字
    • 指導教授
  • 搜尋 TDR
  • 授權 Q&A
    • 我的頁面
    • 接受 E-mail 通知
    • 編輯個人資料
  1. NTU Theses and Dissertations Repository
  2. 電機資訊學院
  3. 資料科學學位學程
請用此 Handle URI 來引用此文件: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/80374
完整後設資料紀錄
DC 欄位值語言
dc.contributor.advisor洪士灝(Shih-Hao Hung),張原豪(Yuan-Hao Chang)
dc.contributor.authorI-Ping Chouen
dc.contributor.author周逸平zh_TW
dc.date.accessioned2022-11-24T03:05:22Z-
dc.date.available2021-09-11
dc.date.available2022-11-24T03:05:22Z-
dc.date.copyright2021-09-11
dc.date.issued2021
dc.date.submitted2021-08-30
dc.identifier.citationKouichi Ozaki, Yozo Ohnishi, Aritoshi Iida, Akihiko Sekine, Ryo Yamada, Tatsuhiko Tsunoda, Hiroshi Sato, Hideyuki Sato, Masatsugu Hori, Yusuke Nakamura, and Toshihiro Tanaka. Functional snps in the lymphotoxinα gene that are associated with susceptibility to myocardial infarction. Nature Genetics, 32(4):650–654, Dec 2002 Cathryn M. Lewis and Evangelos Vassos. Polygenic risk scores: from research tools to clinical instruments. Genome Medicine, 12(1):44, May 2020. R Core Team. R: A Language and Environment for Statistical Computing. R Foundation for Statistical Computing, Vienna, Austria, 2020. Florian Privé, Hugues Aschard, Andrey Ziyatdinov, and Michael G.B. Blum. Efficient analysis of largescale genomewide data with two r packages: bigstatsr and bigsnpr. Bioinformatics, 2018. 2020 intel vtune profiler. https://software.intel.com/content/www/us/en/develop/tools/oneapi/components/vtune-profiler.html. Accessed: 2020-02. Winston Chang, Javier Luraschi, and Timothy Mastny. profvis: Interactive Visualizations for Profiling R Code, 2020. R package version 0.3.7. Nicholas Nethercote and Julian Seward. Valgrind: A framework for heavyweight dynamic binary instrumentation. In Proceedings of the 28th ACM SIGPLAN Conference on Programming Language Design and Implementation, PLDI ’07, page 89–100, New York, NY, USA, 2007. Association for Computing Machinery. Microsoft and Steve Weston. foreach: Provides Foreach Looping Construct, 2020. R package version 1.5.1. Microsoft Corporation and Steve Weston. doParallel: Foreach Parallel Adaptor for the ’parallel’ Package, 2020. R package version 1.0.16. Nvidia nsight systems. https://developer.nvidia.com/nsight-systems. Accessed: 2021-01. Nvidia multiprocess service. https://cran.r-project.org/web/packages/ doMPI/index.html. Accessed: 2021-02. Steve Weston. doMPI: Foreach Parallel Adaptor for the Rmpi Package, 2017. R package version 0.2.2 Hao Yu. Rmpi: Parallel statistical computing in r. R News, 2(2):10–14, 2002. Nvidia multiinstance gpu. https://docs.nvidia.com/datacenter/tesla/mig-user-guide/index.html. Accessed: 202105.
dc.identifier.urihttp://tdr.lib.ntu.edu.tw/jspui/handle/123456789/80374-
dc.description.abstract自基因定序技術被發明以來,研究者與生物學家在基因組關聯分析上開啟了一個全新的紀元。隨著次世代定序技術的成長,基因資料的規模也隨之成指數成長。於此,分析基因關聯資料需要日益龐大的儲存空間以及巨大的計算能力,讓如何有效利用多種加速器以及合理的存取資料的重要性漸漸地浮出水面。以一個在台大醫學院使用bigsnpr程式庫所打造的基因分析應用為例,bigsnpr自資料前處理、SNPs篩選到統計分析,提供研究者們多種當前研究上常使用的分析工具,但是在一般電腦上對於由46萬個基因、8萬個樣本所構成痛風基因資料庫進行分析之時,超過三週仍未獲得結果,嚴重延誤該研究團隊的研究進度。 為了協助該團隊解決上述問題,本研究深入探討bigsnpr的內部架構與效能表現,並利用多種分析工具找出其效能瓶頸。我們發現,在缺失資料差補階段中所使用的bigsnpr函式snp_fastImpute()在進行平行計算的時候並未充分最佳化,導致在不同處理機核心上的計算工作之間必須進行大量的資料交換,而且該函式中所使用的XGBoost演算法應可利用GPU獲得更佳的效能。因此,我們提出幾種效能改進方案,分別針對CPU、GPU以及分散式系統提出了相對應的軟體架構。其中對應CPU的改進版本,在八核心的Intel處理機上成功達成6倍以上的效能提升;對應GPU的改進版本,在TitanV GPU上達成超過12倍的加速;在國家高速計算機中心的台灣杉二號上,以八個四核心的CPU節點執行我們的分散式版本時,可獲得超過20倍的速度提升,並且觀察到高擴展性(scalability),因此能利用50個4核心的節點在一個小時內完成原版本在三週內無法完成的計算工作,大幅改善該研究團隊的進度。zh_TW
dc.description.provenanceMade available in DSpace on 2022-11-24T03:05:22Z (GMT). No. of bitstreams: 1
U0001-0606202116370900.pdf: 1741458 bytes, checksum: eb87ceab14fe999d9189e846888ba27f (MD5)
Previous issue date: 2021
en
dc.description.tableofcontentsChapter 1 Introduction 1 Chapter 2 Profiling the bigsnpr 5 2.1 Workflow of bigsnpr 5 2.2 Bottleneck of bigsnpr 6 Chapter 3 Performance Optimization for bigsnpr 11 3.1 Multiprocessing for the CPU 11 3.2 Multiprocessing for the GPU 15 3.3 Multiprocessing on a Distributed System 17 Chapter 4 Evaluation 21 4.1 Experimental Systems 21 4.2 Generating Synthetic Benchmarks 22 4.3 Multiprocessing on the CPU 23 4.4 GPU Acceleration on XGBoost Models with MPS 26 4.5 Distributed Processing on a Cluster 28 4.6 Data Storage and Transfer 30 Chapter 5 Conclusions 33 Chapter 6 Future Work 34 References 37
dc.language.isoen
dc.subject平行處理zh_TW
dc.subject基因關聯資料分析zh_TW
dc.subjectbigsnprzh_TW
dc.subject分散式系統zh_TW
dc.subject高效能系統zh_TW
dc.subjectbigsnpren
dc.subjectGenomewide Association studyen
dc.subjectHighperformance Computingen
dc.subjectParallel Processingen
dc.subjectDistributed Systemsen
dc.title針對基因分析進行系統架構與效能優化,以開源醫學分析軟體bigsnpr 為例zh_TW
dc.titlePerformance Optimization on Genetic Analysis A Case Study on bigsnpren
dc.date.schoolyear109-2
dc.description.degree碩士
dc.contributor.oralexamcommittee郭大維(Hsin-Tsai Liu),葉肇元(Chih-Yang Tseng),逄愛君
dc.subject.keyword基因關聯資料分析,高效能系統,平行處理,分散式系統,bigsnpr,zh_TW
dc.subject.keywordGenomewide Association study,Highperformance Computing,Parallel Processing,Distributed Systems,bigsnpr,en
dc.relation.page38
dc.identifier.doi10.6342/NTU202100961
dc.rights.note同意授權(限校園內公開)
dc.date.accepted2021-09-01
dc.contributor.author-college電機資訊學院zh_TW
dc.contributor.author-dept資料科學學位學程zh_TW
顯示於系所單位:資料科學學位學程

文件中的檔案:
檔案 大小格式 
U0001-0606202116370900.pdf
授權僅限NTU校內IP使用(校園外請利用VPN校外連線服務)
1.7 MBAdobe PDF
顯示文件簡單紀錄


系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。

社群連結
聯絡資訊
10617臺北市大安區羅斯福路四段1號
No.1 Sec.4, Roosevelt Rd., Taipei, Taiwan, R.O.C. 106
Tel: (02)33662353
Email: ntuetds@ntu.edu.tw
意見箱
相關連結
館藏目錄
國內圖書館整合查詢 MetaCat
臺大學術典藏 NTU Scholars
臺大圖書館數位典藏館
本站聲明
© NTU Library All Rights Reserved