轉換器中自注意力機制的優化

Tsung-Han Wu; 吳宗翰

請用此 Handle URI 來引用此文件： http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/80221

標題:	轉換器中自注意力機制的優化 Optimization of Self-attention in Transformers
作者:	Tsung-Han Wu 吳宗翰
指導教授:	李宏毅(Hung--Yi Lee)
關鍵字:	轉換器,自注意力機制, Transformers,Self-attention,
出版年 :	2021
學位:	碩士
摘要:	近年來，轉換器在各領域已幾乎取代傳統方法以及機器學習中的遞歸式類神經網路，成為當前最熱門、表現最傑出的類神經網路架構。但在傑出表現的背後，我們往往需要付出大量的運算成本，一般來說訓練轉換器時，最大訓練瓶頸會是在自注意力機制的部份，本論文嘗試整理、分析、實作、並比較現有的各式演算法，這些演算法當中，有些是被用理論的方式提出，有的則是只有被實作在推薦系統或電腦視覺領域。將這些方法實作在語音處理以及自然語言處理領域會有何種成效，是此處想探討的重點之一。本論文提出數種轉換器中自注意力機制優化的方法，優化包含時間複雜度層面及記憶體層面。我們嘗試從不同角度切入問題，有的是直接透過壓縮中間層矩陣大小來達到加速的目的，而為了達到最大的加速效果，我們試著對矩陣不同維度進行壓縮；有的則是基於現有、已被提出的輕量模型架構，透過直接修改模型架構的方式，再搭配特殊的初始化方法來加速。這些方法在加速的同時，並不會顯著降低模型表現。
URI:	http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/80221
DOI:	10.6342/NTU202101383
全文授權:	同意授權(限校園內公開)
顯示於系所單位：	電信工程學研究所

文件中的檔案：

檔案	大小	格式
U0001-1007202122182200.pdf 授權僅限NTU校內IP使用（校園外請利用VPN校外連線服務）	5.23 MB	Adobe PDF

顯示文件完整紀錄

系統中的文件，除了特別指名其著作權條款之外，均受到著作權保護，並且保留所有的權利。

DSpace

機構典藏 DSpace 系統致力於保存各式數位資料（如：文字、圖片、PDF）並使其易於取用。