整合半監督式模型架構萃取實體關係三元組以建構中文知識圖譜

Shang-Han Chao; 趙上涵

請用此 Handle URI 來引用此文件： http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/81982

標題:	整合半監督式模型架構萃取實體關係三元組以建構中文知識圖譜 Develop the Semi-supervised Model Architecture to Extract Relation Triples for Chinese Knowledge Graph Construction
作者:	Shang-Han Chao 趙上涵
指導教授:	藍俊宏(Jakey Blue)
關鍵字:	自然語言處理,知識圖譜,半監督式模型,變換器,實體關係三元組, Natural Language Processing,Knowledge Graph,Semi-supervised Model,Transformer,Relation Triple,
出版年 :	2022
學位:	碩士
摘要:	知識圖譜藉由將非結構化文字資料轉換為具結構且可彈性分析處理的關係網路圖，提供了一個讓各式演算法應用並找出隱藏關聯的介面。然而建置知識圖譜的過程是相當費時耗力的，在過去除了全人工標註方式外，也有使用全監督式搭配預訓練語言模型進行關係分類及序列標註的作法，但此種做法只能應對已知關係類別，對於未納入模型學習的資料或關係類別即沒有辦法有效地進行實體關係提取；而利用依存句法、句構文法進行實體關係提取的模型則常需要結合大量依照經驗所訂立的規則進行篩選，亦致使抽取效果相當受侷限、並容易受到文本內容樣態不同影響。而正由於前述原因，如何在儘可能少量人為干預的情形下，使用非監督式模型或半監督式模型對廣泛主題的資料進行實體關係進行有效提取便是本研究的重點。而為了達到以上目標，本研究提出了一個改進的模型訓練架構，首先將文字資料斷詞、標註詞性及依存句法，接續使用訓練資料中已知實體關係三元組之間存在的依存句法關係、結合自助法從訓練資料中抽取出的假樣本，以Transformer架構訓練出對依存句法序列具有代表性的嵌入向量，從而建立能夠對真偽實體關係三元組進行分類的機器學習模型。提出的分析架構以封閉式和開放式文本資料集分別進行評估，封閉式文本使用百度於2021語言與智能技術競賽中開源的關係抽取資料集DuIE2.0、CCKS 2019 Task 6作為評估標的；開放式文本則選擇歷史年表和半導體製程文件作為抽取效能評估對象。本研究在封閉式文本中能逼近使用巨量資料訓練之語言模型的效果，並同時在開放式文本能抽取出可理解的實體關係三元組集合，為未來開放式文本抽取模型上提供了新思路。
URI:	http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/81982
DOI:	10.6342/NTU202200348
全文授權:	同意授權(限校園內公開)
電子全文公開日期:	2027-02-06
顯示於系所單位：	工業工程學研究所

文件中的檔案：

檔案	大小	格式
U0001-0702202222160300.pdf 未授權公開取用	7.56 MB	Adobe PDF	檢視/開啟

顯示文件完整紀錄

系統中的文件，除了特別指名其著作權條款之外，均受到著作權保護，並且保留所有的權利。

DSpace

機構典藏 DSpace 系統致力於保存各式數位資料（如：文字、圖片、PDF）並使其易於取用。