應用RoBERTa-wwm預訓練模型與集成學習以增強機器閱讀理解之表現

Hsien-Ting Huang; 黃獻霆

請用此 Handle URI 來引用此文件： http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/81658

標題:	應用RoBERTa-wwm預訓練模型與集成學習以增強機器閱讀理解之表現 Machine Question Answering Based on RoBERTa-wwm Pre-trained Model and Ensemble Learning
作者:	Hsien-Ting Huang 黃獻霆
指導教授:	莊裕澤(Yuh-Jzer Joung)
關鍵字:	機器閱讀理解,自然語言處理,深度學習,輔助資料集,集成學習,中文語音轉文字, Machine Reading Comprehension,Natural Language Processing,Deep Learning,Auxiliary Dataset,Ensemble Learning,Speech-to-Text,
出版年 :	2021
學位:	碩士
摘要:	我們所實驗的資料集為Formosa Language Understanding Dataset (FLUD)，資料來源由國家實驗研究院科技政策研究與資訊中心所提供。過往針對FLUD所做的研究包括基於BERT模型之多國語言機器閱讀理解研究(Wu. 2019)以及科政中心與科技部主辦的科技大擂台。我們所實驗的機器閱讀理解任務為繁體中文的閱讀測驗選擇題。縱使目前針對繁體中文的資料集與研究相較其他語言如簡體中文、英文來的不足，我們目前可以將繁體中文轉為簡體中文，並運用簡體中文的預訓練模型，我們所使用的預訓練模型BERT-wwm-ext-base與RoBERTa-wwm-ext-base進行機器閱讀理解下游任務已經成功超越過往的研究實驗結果，再者，我們提出使用簡體中文的輔助資料集來幫助訓練，並運用多個模型進行集成學習來提昇最後的預測結果，輔助資料集大大的提高了模型的實驗表現，而集成學習也成功在多個模型的預測結果中小幅的提升了模型預測結果，我們認為集成學習在激烈的競賽當中會是一個很好的技巧；最後，我們重現了當時科技大擂台競賽的規則，將決賽的語音檔透過語音轉文字，並運用我們所訓練完的模型進行預測，也小幅的超越過往研究實驗成果的模型表現，我們的實驗結果發現語意理解與語音轉文字是在進行此實驗中最大的兩個障礙，因此，針對未來在做相關的機器閱讀理解任務，我們建議研究上可以聚焦於上述提到的兩個因素。
URI:	http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/81658
DOI:	10.6342/NTU202101619
全文授權:	未授權
顯示於系所單位：	資訊管理學系

文件中的檔案：

檔案	大小	格式
U0001-2107202108263000.pdf 未授權公開取用	1.78 MB	Adobe PDF

顯示文件完整紀錄

系統中的文件，除了特別指名其著作權條款之外，均受到著作權保護，並且保留所有的權利。

DSpace

機構典藏 DSpace 系統致力於保存各式數位資料（如：文字、圖片、PDF）並使其易於取用。