請用此 Handle URI 來引用此文件:
http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/72154完整後設資料紀錄
| DC 欄位 | 值 | 語言 |
|---|---|---|
| dc.contributor.advisor | 洪士灝(Shih-Hao Hung) | |
| dc.contributor.author | Yi-Hong Lyu | en |
| dc.contributor.author | 呂宜鴻 | zh_TW |
| dc.date.accessioned | 2021-06-17T06:26:06Z | - |
| dc.date.available | 2022-09-01 | |
| dc.date.copyright | 2018-08-21 | |
| dc.date.issued | 2018 | |
| dc.date.submitted | 2018-08-17 | |
| dc.identifier.citation | [1] M. Abadi, P. Barham, J. Chen, Z. Chen, A. Davis, J. Dean, M. Devin, S. Ghemawat, G. Irving, M. Isard, et al. Tensorflow: a system for large-scale machine learning. In OSDI, volume 16, pages 265–283, 2016.
[2] L. Cheng-Yueh. Scout j-bench. https://github.com/cyliustack/scout/tree/master/j-bench, 2018. [3] L. Cheng-Yueh. Sofa. https://github.com/cyliustack/sofa.git, 2018. [4] K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learning for image recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 770–778, 2016. [5] A. Krizhevsky, I. Sutskever, and G. E. Hinton. Imagenet classification with deep convolutional neural networks. In Advances in neural information processing systems, pages 1097–1105, 2012. [6] K. Simonyan and A. Zisserman. Very deep convolutional networks for large-scale image recognition. arXiv preprint arXiv:1409.1556, 2014. [7] C. Szegedy, V. Vanhoucke, S. Ioffe, J. Shlens, and Z. Wojna. Rethinking the inception architecture for computer vision. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 2818–2826, 2016. [8] H. Q. X. P. . W. D. Xing, E. P. Strategies and principles of distributed machine learning on big data. 2016. [9] Z. Z. X. S. D. W. H. Q. L. X. . . X. E. P. Zhang, H. Poseidon: An efficient communication architecture for distributed deep learning on GPU clusters. 2017. | |
| dc.identifier.uri | http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/72154 | - |
| dc.description.abstract | 深度學習是機器學習的一種方法,在實際應用中,即使運用具備圖形處理器(graphics processing unit, GPU)的機器來加速計算,往往需要幾天,甚至數周的時間才能完成以巨量資料訓練深度學習神經網路的工作,因此採用高效能計算叢集(HPC cluster)進一步加速深度學習的作法應運而生。高效能計算叢集將訓練深度神經網路的計算任務分配到不同計算節點進行分散式訓練(distributed training),每個計算節點具備多個圖形處理器,因此可大幅縮短訓練的時間。但是隨著節點個數的增加,以及圖形處理器計算能力的提升,訓練時所需要同步更新參數(parameters)所產生的資料交換量亦大幅的成長,而處理器之間大量的通訊所造成的負擔可能嚴重削減加速的效果。
本篇論文發展一套效能模型的建構方法,可針對Tensorflow分散式訓練中參數同步的方法,包括參數伺服器(parameter server)及環狀(xring),以及高效能計算叢集中處理器間的通訊網路拓樸,建構出系統層級的效能預估模型。我們透過測量程式獲得一次疊代(iteration)圖形處理器所需要的計算時間、網路傳輸參數所需的時間、模型參數的大小、模型參數在內部處理器間的傳輸量等資訊,自動為目標系統產生效能模型。使用者可透過此模型,準確預估出任何在該系統上執行分散式深度學習訓練工作的效能可擴展性、與網路的頻寬需求、甚至可以使用此模型來建構出成本效益高的圖形處理器叢集。根據我們的實驗結果,模型所預測的效能與實際的效能的差距在正負百分之十之內,因此對於系統設計者在做初期規劃的時候提供了相當實用的參考資料。 | zh_TW |
| dc.description.provenance | Made available in DSpace on 2021-06-17T06:26:06Z (GMT). No. of bitstreams: 1 ntu-107-R05922155-1.pdf: 9537265 bytes, checksum: f09175573daeb282cacd502f45801a4a (MD5) Previous issue date: 2018 | en |
| dc.description.tableofcontents | 誌謝. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . i
摘要. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ii Abstract . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . iv 第一章介紹. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 第二章背景知識. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 2.1 深度學習背景知識. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 2.1.1 深度學習與類神經網路. . . . . . . . . . . . . . . . . . . . . . 3 2.1.2 深度學習之參數. . . . . . . . . . . . . . . . . . . . . . . . . . 3 2.1.3 反向傳播算法. . . . . . . . . . . . . . . . . . . . . . . . . . . 4 2.1.4 分散式深度學習之資料平行方法. . . . . . . . . . . . . . . . 5 2.1.5 參數儲存及溝通的拓撲. . . . . . . . . . . . . . . . . . . . . . 5 2.2 深度學習框架:TensorFlow . . . . . . . . . . . . . . . . . . . . . . . . 5 2.3 深度學習應用分析工具- SOFA . . . . . . . . . . . . . . . . . . . . . . 6 第三章研究方法. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 3.1 效能預估模型. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 3.1.1 參數伺服器. . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 3.1.2 環狀. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 3.1.3 從SOFA 觀察參數伺服器模式中的一次疊代. . . . . . . . . . 8 3.2 圖形處理器計算時間測量. . . . . . . . . . . . . . . . . . . . . . . . . 10 3.2.1 圖形處理器一次疊代之時間測量. . . . . . . . . . . . . . . . 10 3.2.2 前向傳遞與後向傳遞之時間比例. . . . . . . . . . . . . . . . 10 3.3 模型之參數大小與傳遞方式. . . . . . . . . . . . . . . . . . . . . . . 11 3.3.1 模型之參數大小. . . . . . . . . . . . . . . . . . . . . . . . . . 11 3.3.2 參數伺服器模式中參數分配之方式. . . . . . . . . . . . . . . 14 3.3.3 環狀模式中參數分配之方式. . . . . . . . . . . . . . . . . . . 15 3.3.4 參數伺服器與環狀模式中參數分配之比較. . . . . . . . . . . 18 3.3.5 參數伺服器模式中網路時間預估. . . . . . . . . . . . . . . . 21 3.3.6 參數伺服器模式中處理器間通訊方式. . . . . . . . . . . . . . 24 第四章實驗結果與討論. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 4.1 實驗結果與環境. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 4.1.1 實驗環境設置. . . . . . . . . . . . . . . . . . . . . . . . . . . 26 4.1.2 實驗結果. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 4.1.3 預測模型架構. . . . . . . . . . . . . . . . . . . . . . . . . . . 28 4.1.4 效能模型與實際結果之差異. . . . . . . . . . . . . . . . . . . 29 4.1.5 效能模型套用至不同硬體規格. . . . . . . . . . . . . . . . . . 30 第五章結論與未來展望. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 5.1 結論. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 5.1.1 環狀之優缺點. . . . . . . . . . . . . . . . . . . . . . . . . . . 33 5.1.2 參數伺服器之優缺點. . . . . . . . . . . . . . . . . . . . . . . 34 5.2 未來展望. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 參考文獻. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 | |
| dc.language.iso | zh-TW | |
| dc.subject | 效能分析工具 | zh_TW |
| dc.subject | 深度學習 | zh_TW |
| dc.subject | 分散式訓練 | zh_TW |
| dc.subject | 時間模型 | zh_TW |
| dc.subject | 網路 | zh_TW |
| dc.subject | Timing Model | en |
| dc.subject | Deep learning | en |
| dc.subject | Distrbuted training | en |
| dc.subject | Network | en |
| dc.subject | Profiling tool | en |
| dc.title | 分散式深度學習系統中處理器間通訊與效能擴展性之模型建構與預測 | zh_TW |
| dc.title | Modeling and Estimation of the Interprocessor Communication and Performance Scalability for Distributed Deep Learning Systems | en |
| dc.type | Thesis | |
| dc.date.schoolyear | 106-2 | |
| dc.description.degree | 碩士 | |
| dc.contributor.oralexamcommittee | 徐慰中(Wei-Chung Hsu),涂嘉恒(Chia-Heng Tu) | |
| dc.subject.keyword | 效能分析工具,深度學習,分散式訓練,時間模型,網路, | zh_TW |
| dc.subject.keyword | Profiling tool,Deep learning,Distrbuted training,Timing Model,Network, | en |
| dc.relation.page | 38 | |
| dc.identifier.doi | 10.6342/NTU201803835 | |
| dc.rights.note | 有償授權 | |
| dc.date.accepted | 2018-08-17 | |
| dc.contributor.author-college | 電機資訊學院 | zh_TW |
| dc.contributor.author-dept | 資訊工程學研究所 | zh_TW |
| 顯示於系所單位: | 資訊工程學系 | |
文件中的檔案:
| 檔案 | 大小 | 格式 | |
|---|---|---|---|
| ntu-107-1.pdf 未授權公開取用 | 9.31 MB | Adobe PDF |
系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。
