基於參數伺服器之雙批量尺寸學習

Kuan-Wei Lu; 盧冠維

請用此 Handle URI 來引用此文件： http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/80203

標題:	基於參數伺服器之雙批量尺寸學習 Dual Batch Size Learning on Parameter Server
作者:	Kuan-Wei Lu 盧冠維
指導教授:	劉邦鋒(Pangfeng Liu)
關鍵字:	機器學習,深度神經網路,批量尺寸,分散式學習,參數伺服器, machine learning,deep neural networks,batch size,distributed learning,parameter server,
出版年 :	2022
學位:	碩士
摘要:	分散式機器學習對於應用具有許多數據和參數的深度學習模型至關重要。當前對分散式機器學習的研究集中在使用更多硬體設備與強大的計算單元進行快速的訓練。對此，模型訓練傾向於使用更大的批量尺寸來加快訓練速度。然而，由於泛化能力差，大批量訓練往往會出現準確率低的問題。對於大批量，研究人員已經提出了許多複雜的方法來解決準確性的問題。這些方法通常具有複雜的機制，因此使訓練更加困難。此外，用於大批量的強大訓練硬體價格昂貴，並非所有研究人員都能負擔得起。我們提出了雙批量尺寸學習方案來解決批量大小的問題。我們使用硬體的最大批量尺寸來實現我們可以負擔的最大訓練效率。此外，我們在訓練過程中引入了更小的批量尺寸，以提高模型的泛化能力。此方法在同一訓練中同時使用兩個不同的批量尺寸，以減少測試損失並獲得良好的泛化能力，且訓練時間只會略有增加。我們實作我們的雙批量尺寸學習方案並進行實驗。通過增加 5% 的訓練時間，我們可以在某些情況下將損失從 1.429 減少到 1.246。此外，通過適當調整大批量和小批量的百分比，我們可以在某些情況下將準確率提高 2.8%。而在訓練時間額外增加 10% 的情況下，我們可以將損失從 1.429 減少到 1.193。並且在適度調整大批量和小批量的數量後，準確率可以提升 2.9%。在同一訓練中使用兩種不同的批量尺寸會帶來兩個複雜性。首先，兩種不同批量尺寸的數據處理速度不同，所以我們必須按比例分配數據，以最大化整體處理速度。此外，基於整體處理速度的考慮，較小的批量將看到更少的數據，我們按比例調整它們對參數服務器中全局權重更新的貢獻。我們使用小批量和大批量之間的數據比例來調整貢獻。實驗結果表明，此貢獻調整將最終準確率提高 0.9%。
URI:	http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/80203
DOI:	10.6342/NTU202200147
全文授權:	同意授權(全球公開)
顯示於系所單位：	資訊網路與多媒體研究所

文件中的檔案：

檔案	大小	格式
U0001-2201202210284000.pdf	2.41 MB	Adobe PDF	檢視/開啟

顯示文件完整紀錄

系統中的文件，除了特別指名其著作權條款之外，均受到著作權保護，並且保留所有的權利。

DSpace

機構典藏 DSpace 系統致力於保存各式數位資料（如：文字、圖片、PDF）並使其易於取用。