請用此 Handle URI 來引用此文件:
http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/50729
標題: | 位置權重法在公司名匹配上的應用 Position-Weighted Measures for the Company Name-Matching Problem |
作者: | Ching-Kuo Li 李清國 |
指導教授: | 宋玉生(Yusen Sung) |
共同指導教授: | 呂育道(Yuh-Dauh Lyuu) |
關鍵字: | 公司名,字串比對,位置權重,名稱匹配,資料整合, Company name,Name-matching problem,String similarity,Position weight,Data integration, |
出版年 : | 2016 |
學位: | 碩士 |
摘要: | 本研究將針對公司名匹配的問題,我們分析了一些客戶在輸入公司名常犯的錯誤,這些錯誤會使公司名在匹配上更加困難。雖然公司名匹配的問題是一種名稱匹配的問題,但由於公司名擁有特別的特徵,使得一般名稱匹配的方法往往不是最佳的選擇。因此,根據公司名的組成結構,我們提出位置權重法來處理公司名匹配的問題。我們將位置權重法和Soft TF/IDF 法及 Monge-Elkan法在不同的資料上做比較。其結果顯示,在最大F1值及我們定義的評價方式,位置權重法的整體表現最佳。除了公司名稱之外,位置權重法也可以使用在擁有類似結構的名稱匹配問題。 This thesis focuses on the company name-matching problem. We analyze common errors and complications in company names committed by users that make the company name-matching problem difficult. Although the company name-matching problem is a type of name-matching problem, it has special features that make these common name-matching methods barely the best choice in the company name-matching problem. Therefore, according to the construction of the company name, we propose a novel idea of position weight to address company name-matching problem. Then, we compare our proposed position-weighted measure with the Monge-Elkan measure and the soft TF/IDF in the popular business data set and two data sets from a major semiconductors manufacturer. The result indicates that the position-weighted measure performs best overall based on maximum F1 and our proposed rating measure in the company name-matching problem. Besides the company name, the position weighted measure can also be used in some name-matching problems that have similar construction with the company name. |
URI: | http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/50729 |
DOI: | 10.6342/NTU201600955 |
全文授權: | 有償授權 |
顯示於系所單位: | 經濟學系 |
文件中的檔案:
檔案 | 大小 | 格式 | |
---|---|---|---|
ntu-105-1.pdf 目前未授權公開取用 | 3.89 MB | Adobe PDF |
系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。