請用此 Handle URI 來引用此文件:
http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/87915
標題: | 內核分解法之靈活卷積神經網絡推理加速器 Kernel Decomposition Method for Flexible Convolution Neural Network Inference Accelerator |
作者: | 柯宗賢 Tsung-Hsien Ke |
指導教授: | 陳良基 Liang-Gee Chen |
關鍵字: | 靈活運算,內核分解法,卷積神經網絡加速器,資料排程,DRAM讀取, flexibility,kernel decomposition,CNN accelerator,data scheduling,DRAM access, |
出版年 : | 2023 |
學位: | 碩士 |
摘要: | 隨著人工智慧的發展,現今的邊緣裝置也希望能夠加速卷積神經網絡,各種不同的人工智慧應用對應到不同的網絡來做運算,因此我們希望提出一個通用型的加速器能夠在不同的網絡中都能有效地進行運算。但是這些不同的網絡又會有不同的運算平行度,而且邊緣裝置也有硬體的限制,因此我們提出了可以同時考量運算平行度跟硬體限制的理論。
在此篇論文中我們提出了內核分解法,即是希望能透過將各種類型的卷積都轉換成1x1的卷積來做運算,並藉此來增加可有效加速的運算種類,而我們確實能在此方法下,對不同的運算做加速時,都能保持在高的運算單元使用率(>90%)。此外我們還提出了一種排程的方法,可以在高的運算單元使用率的前提下,再對DRAM的資料讀取進行優化,以盡可能地達到較低的能量消耗,並且可以在使用了1024個運算單元的情況下,在Alexnet有了37.42%的DRAM資料讀取量下降,以及在VGG16有了52.44%的DRAM資料讀取量下降。 There are several applications of CNN embedded in edge devices. The applications target to various convolutional neural networks, which have different computational parallelisms (CP). To design an accelerator for various networks in edge device, we need to consider the various CPs and the hardware resource constraints. In this thesis, we propose the Kernel Decomposition (KD) method, a methodology for converting CONVs to 1x1 CONVs with stride of 1, which provides more flexibility to the architecture during data mapping and can achieve good PE utilization (> 90%). In addition, based on good PE utilization, the data scheduling approach can pursue minimal DRAM access, which can be reduced by 37.42% and 52.44% in the Alexnet and VGG16 with 1024 PEs respectively. |
URI: | http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/87915 |
DOI: | 10.6342/NTU202301238 |
全文授權: | 同意授權(限校園內公開) |
顯示於系所單位: | 電子工程學研究所 |
文件中的檔案:
檔案 | 大小 | 格式 | |
---|---|---|---|
ntu-111-2.pdf 授權僅限NTU校內IP使用(校園外請利用VPN校外連線服務) | 2.65 MB | Adobe PDF | 檢視/開啟 |
系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。