請用此 Handle URI 來引用此文件:
http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/36165
標題: | 網頁文獻叢集化搜尋 Web-base Literature Clustering Search |
作者: | Hsiang-Chun Tsai 蔡香君 |
指導教授: | 翁昭旼(Jau-Min Wong) |
共同指導教授: | 蔣以仁(I-Jen Chiang) |
關鍵字: | 叢集化,關聯法則,資料探勘, Document Clustering,Association Rule,Text Mining, |
出版年 : | 2005 |
學位: | 碩士 |
摘要: | 隨著資訊時代的來臨,數位化文獻的資料量也以急劇速度不斷地成長。如何能在大量的數位化資料中迅速尋找出高關聯度的資料、淬取出相關的知識,無疑是一個急迫解決的重要議題。我們在這篇論文中提出一個叢集化的方法(Literature Clustering Search, LCS)。利用這個方法可以將大量的資料分類成階層式叢集,並進一步幫助使用者在短時間內能對大量的資料進行初步的了解以及具有初步的概念。我們的方法共有四個步驟。首先,Metadata Retrieval可以將資料做格式化的動作。第二步,進行Feature Selection的程序,在這個步驟中我們只留下具有文章代表性的單字或單詞做為Feature。第三步,再利用Association Rule Mining的程序計算出所有Feature之間的關係。最後,我們依據這些關係形成一個階層式叢集。由於Association Rules代表著一群共同出現的字詞,我們可以藉由這一群共同出現的字詞輕易地了解群組中所代表的涵意。除此之外,我們同時建立了一個線上文獻叢集化搜尋服務,以展示我們的方法與成果。 In the past two decades it has been seen a dramatic increase in the amount of information or data being stored in electronic format. Retrieving relevant information from large data set becomes important issue. We propose a clustering method which generates hierarchical clusters and helps us to have overall picture of the concepts through the massive information in a short time. We call it Literature Clustering Search (LCS). There are four steps to accomplish the task. First, metadata retrieval will help normalizing the data format. Second, feature selection extracts words/phrases which could represent the document. Third, association rule mining generates relations between features. Finally, group the documents that share the same association rules. Since association rules represent a set of terms that co-occur frequently, we could easily obtain the concept of the cluster based on the association rules of the cluster. In addition, we build an online clustering web service to demonstrate the methodology of literature clustering search. |
URI: | http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/36165 |
全文授權: | 有償授權 |
顯示於系所單位: | 醫學工程學研究所 |
文件中的檔案:
檔案 | 大小 | 格式 | |
---|---|---|---|
ntu-94-1.pdf 目前未授權公開取用 | 2.93 MB | Adobe PDF |
系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。