Skip navigation

DSpace JSPUI

DSpace preserves and enables easy and open access to all types of digital content including text, images, moving images, mpegs and data sets

Learn More
DSpace logo
English
中文
  • Browse
    • Communities
      & Collections
    • Publication Year
    • Author
    • Title
    • Subject
    • Advisor
  • Search TDR
  • Rights Q&A
    • My Page
    • Receive email
      updates
    • Edit Profile
  1. NTU Theses and Dissertations Repository
  2. 管理學院
  3. 資訊管理學系
Please use this identifier to cite or link to this item: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/81348
Title: 基於BERT預訓練模型的專利檢索方法
The Novel Patent Retrieval Method Based On BERT Pre-trained Model
Authors: Yu-Hsiu Tai
戴余修
Advisor: 莊裕澤(Yuh-Jzer Joung)
Keyword: 專利檢索,自然語言處理,深度學習,BERT預訓練模型,文字探勘,
Patent Retrieval,Natural Language Processing,Deep Learning,BERT Pre-trained Model,Text Mining,
Publication Year : 2021
Degree: 碩士
Abstract: 專利檢索是獲取專利資料的最重要手段,為了避免法律上糾紛,企業時常會進行專利檢索來檢驗專利所揭載的技術與過往已核准的專利是否雷同。另外,專利申請者或是專利審查委員也會進行專利檢索,審視申請中專利是否具備新穎性。專利檢索任務與一般的檢索任務特性不同,專利文件通常使用艱澀的技術用語、術語,一般人難以理解專利文件的內容。因此,專利檢索者通常需具備一定的專業知識與長年的經驗,此外,專利文件的數量每年都大幅度的成長,要在海量且增長幅度持續增加的專利資料庫中找尋目標專利,是一項相當具有挑戰性的工作。本研究旨在提出一個有效的專利檢索方法,幫助專利工作者解決專利檢索會遇到的痛點。 過去對於專利檢索方法的研究,著重在基於關鍵字的檢索方法,然而這樣的方法容易造成字彙不匹配(vocabulary mismatch)的問題。理由如同上述,專利文件通常使用艱澀的用語,因此很難下一個精準的關鍵字去涵蓋相關的專利文件。而基於語意理解的檢索方法可以緩解專利檢索的字彙不匹配效應。BERT為近年自然語言處理領域備受矚目的模型,甫一推出即在許多NLP任務上達成state-of-the-art (SOTA)。本研究認為BERT在語意理解方面的強大能力,在專利檢索的應用上有相當大的發揮空間。 本研究將專利文件切割為段落層級,作為解決BERT輸入長度限制的解決方案,透過Sentence-BERT預訓練模型計算出每個專利文件段落的向量表示,並且將所有段落的向量表示進行mean-pooling,使之聚合成一個代表專利文件的向量表示,並透過專利向量之間的相似度比對進行基於語意的專利檢索。另外,本研究也將BM25與Sentence-BERT結合,透過二階段的檢索,希望能夠結合兩模型基於字詞匹配與語意匹配的特性,發揮綜效,達成更好的檢索表現。 實驗結果顯示,Sentence-BERT能產生高品質的專利文件向量表示,其檢索表現遠勝於其他基於語意相似度比對的檢索方法,並且在透過專利領域文本進行微調(fine-tuning)過後,其檢索表現有更進一步的增長。而BM25+Sentence-BERT的二階段檢索,在recall及PRES兩個指標上更是優於其他方法,符合專利檢索recall-oriented的應用需求,幫助專利檢索者在有限的檢索回傳結果中獲得更多與查詢相關的專利文件,降低遺漏重要專利的風險。
URI: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/81348
DOI: 10.6342/NTU202101499
Fulltext Rights: 同意授權(限校園內公開)
Appears in Collections:資訊管理學系

Files in This Item:
File SizeFormat 
U0001-1507202122424200.pdf
Access limited in NTU ip range
1.64 MBAdobe PDF
Show full item record


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

社群連結
聯絡資訊
10617臺北市大安區羅斯福路四段1號
No.1 Sec.4, Roosevelt Rd., Taipei, Taiwan, R.O.C. 106
Tel: (02)33662353
Email: ntuetds@ntu.edu.tw
意見箱
相關連結
館藏目錄
國內圖書館整合查詢 MetaCat
臺大學術典藏 NTU Scholars
臺大圖書館數位典藏館
本站聲明
© NTU Library All Rights Reserved