轉換器中自注意力機制的優化

Tsung-Han Wu; 吳宗翰

Please use this identifier to cite or link to this item: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/80221

Title:	轉換器中自注意力機制的優化 Optimization of Self-attention in Transformers
Authors:	Tsung-Han Wu 吳宗翰
Advisor:	李宏毅(Hung--Yi Lee)
Keyword:	轉換器,自注意力機制, Transformers,Self-attention,
Publication Year :	2021
Degree:	碩士
Abstract:	近年來，轉換器在各領域已幾乎取代傳統方法以及機器學習中的遞歸式類神經網路，成為當前最熱門、表現最傑出的類神經網路架構。但在傑出表現的背後，我們往往需要付出大量的運算成本，一般來說訓練轉換器時，最大訓練瓶頸會是在自注意力機制的部份，本論文嘗試整理、分析、實作、並比較現有的各式演算法，這些演算法當中，有些是被用理論的方式提出，有的則是只有被實作在推薦系統或電腦視覺領域。將這些方法實作在語音處理以及自然語言處理領域會有何種成效，是此處想探討的重點之一。本論文提出數種轉換器中自注意力機制優化的方法，優化包含時間複雜度層面及記憶體層面。我們嘗試從不同角度切入問題，有的是直接透過壓縮中間層矩陣大小來達到加速的目的，而為了達到最大的加速效果，我們試著對矩陣不同維度進行壓縮；有的則是基於現有、已被提出的輕量模型架構，透過直接修改模型架構的方式，再搭配特殊的初始化方法來加速。這些方法在加速的同時，並不會顯著降低模型表現。
URI:	http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/80221
DOI:	10.6342/NTU202101383
Fulltext Rights:	同意授權(限校園內公開)
Appears in Collections:	電信工程學研究所

Files in This Item:

File	Size	Format
U0001-1007202122182200.pdf Access limited in NTU ip range	5.23 MB	Adobe PDF

Show full item record

DSpace JSPUI

DSpace preserves and enables easy and open access to all types of digital content including text, images, moving images, mpegs and data sets