請用此 Handle URI 來引用此文件:
http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/81348| 標題: | 基於BERT預訓練模型的專利檢索方法 The Novel Patent Retrieval Method Based On BERT Pre-trained Model |
| 作者: | Yu-Hsiu Tai 戴余修 |
| 指導教授: | 莊裕澤(Yuh-Jzer Joung) |
| 關鍵字: | 專利檢索,自然語言處理,深度學習,BERT預訓練模型,文字探勘, Patent Retrieval,Natural Language Processing,Deep Learning,BERT Pre-trained Model,Text Mining, |
| 出版年 : | 2021 |
| 學位: | 碩士 |
| 摘要: | 專利檢索是獲取專利資料的最重要手段,為了避免法律上糾紛,企業時常會進行專利檢索來檢驗專利所揭載的技術與過往已核准的專利是否雷同。另外,專利申請者或是專利審查委員也會進行專利檢索,審視申請中專利是否具備新穎性。專利檢索任務與一般的檢索任務特性不同,專利文件通常使用艱澀的技術用語、術語,一般人難以理解專利文件的內容。因此,專利檢索者通常需具備一定的專業知識與長年的經驗,此外,專利文件的數量每年都大幅度的成長,要在海量且增長幅度持續增加的專利資料庫中找尋目標專利,是一項相當具有挑戰性的工作。本研究旨在提出一個有效的專利檢索方法,幫助專利工作者解決專利檢索會遇到的痛點。 過去對於專利檢索方法的研究,著重在基於關鍵字的檢索方法,然而這樣的方法容易造成字彙不匹配(vocabulary mismatch)的問題。理由如同上述,專利文件通常使用艱澀的用語,因此很難下一個精準的關鍵字去涵蓋相關的專利文件。而基於語意理解的檢索方法可以緩解專利檢索的字彙不匹配效應。BERT為近年自然語言處理領域備受矚目的模型,甫一推出即在許多NLP任務上達成state-of-the-art (SOTA)。本研究認為BERT在語意理解方面的強大能力,在專利檢索的應用上有相當大的發揮空間。 本研究將專利文件切割為段落層級,作為解決BERT輸入長度限制的解決方案,透過Sentence-BERT預訓練模型計算出每個專利文件段落的向量表示,並且將所有段落的向量表示進行mean-pooling,使之聚合成一個代表專利文件的向量表示,並透過專利向量之間的相似度比對進行基於語意的專利檢索。另外,本研究也將BM25與Sentence-BERT結合,透過二階段的檢索,希望能夠結合兩模型基於字詞匹配與語意匹配的特性,發揮綜效,達成更好的檢索表現。 實驗結果顯示,Sentence-BERT能產生高品質的專利文件向量表示,其檢索表現遠勝於其他基於語意相似度比對的檢索方法,並且在透過專利領域文本進行微調(fine-tuning)過後,其檢索表現有更進一步的增長。而BM25+Sentence-BERT的二階段檢索,在recall及PRES兩個指標上更是優於其他方法,符合專利檢索recall-oriented的應用需求,幫助專利檢索者在有限的檢索回傳結果中獲得更多與查詢相關的專利文件,降低遺漏重要專利的風險。 |
| URI: | http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/81348 |
| DOI: | 10.6342/NTU202101499 |
| 全文授權: | 同意授權(限校園內公開) |
| 顯示於系所單位: | 資訊管理學系 |
文件中的檔案:
| 檔案 | 大小 | 格式 | |
|---|---|---|---|
| U0001-1507202122424200.pdf 授權僅限NTU校內IP使用(校園外請利用VPN校外連線服務) | 1.64 MB | Adobe PDF |
系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。
