分散式深度學習系統中處理器間通訊與效能擴展性之模型建構與預測

Yi-Hong Lyu; 呂宜鴻

請用此 Handle URI 來引用此文件： http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/72154

完整後設資料紀錄

DC 欄位	值	語言
dc.contributor.advisor	洪士灝(Shih-Hao Hung)
dc.contributor.author	Yi-Hong Lyu	en
dc.contributor.author	呂宜鴻	zh_TW
dc.date.accessioned	2021-06-17T06:26:06Z	-
dc.date.available	2022-09-01
dc.date.copyright	2018-08-21
dc.date.issued	2018
dc.date.submitted	2018-08-17
dc.identifier.citation	[1] M. Abadi, P. Barham, J. Chen, Z. Chen, A. Davis, J. Dean, M. Devin, S. Ghemawat, G. Irving, M. Isard, et al. Tensorflow: a system for large-scale machine learning. In OSDI, volume 16, pages 265–283, 2016. [2] L. Cheng-Yueh. Scout j-bench. https://github.com/cyliustack/scout/tree/master/j-bench, 2018. [3] L. Cheng-Yueh. Sofa. https://github.com/cyliustack/sofa.git, 2018. [4] K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learning for image recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 770–778, 2016. [5] A. Krizhevsky, I. Sutskever, and G. E. Hinton. Imagenet classification with deep convolutional neural networks. In Advances in neural information processing systems, pages 1097–1105, 2012. [6] K. Simonyan and A. Zisserman. Very deep convolutional networks for large-scale image recognition. arXiv preprint arXiv:1409.1556, 2014. [7] C. Szegedy, V. Vanhoucke, S. Ioffe, J. Shlens, and Z. Wojna. Rethinking the inception architecture for computer vision. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 2818–2826, 2016. [8] H. Q. X. P. . W. D. Xing, E. P. Strategies and principles of distributed machine learning on big data. 2016. [9] Z. Z. X. S. D. W. H. Q. L. X. . . X. E. P. Zhang, H. Poseidon: An efficient communication architecture for distributed deep learning on GPU clusters. 2017.
dc.identifier.uri	http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/72154	-
dc.description.abstract	深度學習是機器學習的一種方法，在實際應用中，即使運用具備圖形處理器(graphics processing unit, GPU）的機器來加速計算，往往需要幾天，甚至數周的時間才能完成以巨量資料訓練深度學習神經網路的工作，因此採用高效能計算叢集(HPC cluster)進一步加速深度學習的作法應運而生。高效能計算叢集將訓練深度神經網路的計算任務分配到不同計算節點進行分散式訓練(distributed training)，每個計算節點具備多個圖形處理器，因此可大幅縮短訓練的時間。但是隨著節點個數的增加，以及圖形處理器計算能力的提升，訓練時所需要同步更新參數(parameters)所產生的資料交換量亦大幅的成長，而處理器之間大量的通訊所造成的負擔可能嚴重削減加速的效果。本篇論文發展一套效能模型的建構方法，可針對Tensorflow分散式訓練中參數同步的方法，包括參數伺服器(parameter server)及環狀(xring)，以及高效能計算叢集中處理器間的通訊網路拓樸，建構出系統層級的效能預估模型。我們透過測量程式獲得一次疊代(iteration)圖形處理器所需要的計算時間、網路傳輸參數所需的時間、模型參數的大小、模型參數在內部處理器間的傳輸量等資訊，自動為目標系統產生效能模型。使用者可透過此模型，準確預估出任何在該系統上執行分散式深度學習訓練工作的效能可擴展性、與網路的頻寬需求、甚至可以使用此模型來建構出成本效益高的圖形處理器叢集。根據我們的實驗結果，模型所預測的效能與實際的效能的差距在正負百分之十之內，因此對於系統設計者在做初期規劃的時候提供了相當實用的參考資料。	zh_TW
dc.description.provenance	Made available in DSpace on 2021-06-17T06:26:06Z (GMT). No. of bitstreams: 1 ntu-107-R05922155-1.pdf: 9537265 bytes, checksum: f09175573daeb282cacd502f45801a4a (MD5) Previous issue date: 2018	en
dc.description.tableofcontents	誌謝. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . i 摘要. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ii Abstract . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . iv 第一章介紹. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 第二章背景知識. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 2.1 深度學習背景知識. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 2.1.1 深度學習與類神經網路. . . . . . . . . . . . . . . . . . . . . . 3 2.1.2 深度學習之參數. . . . . . . . . . . . . . . . . . . . . . . . . . 3 2.1.3 反向傳播算法. . . . . . . . . . . . . . . . . . . . . . . . . . . 4 2.1.4 分散式深度學習之資料平行方法. . . . . . . . . . . . . . . . 5 2.1.5 參數儲存及溝通的拓撲. . . . . . . . . . . . . . . . . . . . . . 5 2.2 深度學習框架：TensorFlow . . . . . . . . . . . . . . . . . . . . . . . . 5 2.3 深度學習應用分析工具- SOFA . . . . . . . . . . . . . . . . . . . . . . 6 第三章研究方法. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 3.1 效能預估模型. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 3.1.1 參數伺服器. . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 3.1.2 環狀. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 3.1.3 從SOFA 觀察參數伺服器模式中的一次疊代. . . . . . . . . . 8 3.2 圖形處理器計算時間測量. . . . . . . . . . . . . . . . . . . . . . . . . 10 3.2.1 圖形處理器一次疊代之時間測量. . . . . . . . . . . . . . . . 10 3.2.2 前向傳遞與後向傳遞之時間比例. . . . . . . . . . . . . . . . 10 3.3 模型之參數大小與傳遞方式. . . . . . . . . . . . . . . . . . . . . . . 11 3.3.1 模型之參數大小. . . . . . . . . . . . . . . . . . . . . . . . . . 11 3.3.2 參數伺服器模式中參數分配之方式. . . . . . . . . . . . . . . 14 3.3.3 環狀模式中參數分配之方式. . . . . . . . . . . . . . . . . . . 15 3.3.4 參數伺服器與環狀模式中參數分配之比較. . . . . . . . . . . 18 3.3.5 參數伺服器模式中網路時間預估. . . . . . . . . . . . . . . . 21 3.3.6 參數伺服器模式中處理器間通訊方式. . . . . . . . . . . . . . 24 第四章實驗結果與討論. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 4.1 實驗結果與環境. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 4.1.1 實驗環境設置. . . . . . . . . . . . . . . . . . . . . . . . . . . 26 4.1.2 實驗結果. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 4.1.3 預測模型架構. . . . . . . . . . . . . . . . . . . . . . . . . . . 28 4.1.4 效能模型與實際結果之差異. . . . . . . . . . . . . . . . . . . 29 4.1.5 效能模型套用至不同硬體規格. . . . . . . . . . . . . . . . . . 30 第五章結論與未來展望. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 5.1 結論. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 5.1.1 環狀之優缺點. . . . . . . . . . . . . . . . . . . . . . . . . . . 33 5.1.2 參數伺服器之優缺點. . . . . . . . . . . . . . . . . . . . . . . 34 5.2 未來展望. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 參考文獻. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
dc.language.iso	zh-TW
dc.subject	效能分析工具	zh_TW
dc.subject	深度學習	zh_TW
dc.subject	分散式訓練	zh_TW
dc.subject	時間模型	zh_TW
dc.subject	網路	zh_TW
dc.subject	Timing Model	en
dc.subject	Deep learning	en
dc.subject	Distrbuted training	en
dc.subject	Network	en
dc.subject	Profiling tool	en
dc.title	分散式深度學習系統中處理器間通訊與效能擴展性之模型建構與預測	zh_TW
dc.title	Modeling and Estimation of the Interprocessor Communication and Performance Scalability for Distributed Deep Learning Systems	en
dc.type	Thesis
dc.date.schoolyear	106-2
dc.description.degree	碩士
dc.contributor.oralexamcommittee	徐慰中(Wei-Chung Hsu),涂嘉恒(Chia-Heng Tu)
dc.subject.keyword	效能分析工具,深度學習,分散式訓練,時間模型,網路,	zh_TW
dc.subject.keyword	Profiling tool,Deep learning,Distrbuted training,Timing Model,Network,	en
dc.relation.page	38
dc.identifier.doi	10.6342/NTU201803835
dc.rights.note	有償授權
dc.date.accepted	2018-08-17
dc.contributor.author-college	電機資訊學院	zh_TW
dc.contributor.author-dept	資訊工程學研究所	zh_TW
顯示於系所單位：	資訊工程學系

文件中的檔案：

檔案	大小	格式
ntu-107-1.pdf 未授權公開取用	9.31 MB	Adobe PDF

顯示文件簡單紀錄

系統中的文件，除了特別指名其著作權條款之外，均受到著作權保護，並且保留所有的權利。