Skip navigation

DSpace

機構典藏 DSpace 系統致力於保存各式數位資料(如:文字、圖片、PDF)並使其易於取用。

點此認識 DSpace
DSpace logo
English
中文
  • 瀏覽論文
    • 校院系所
    • 出版年
    • 作者
    • 標題
    • 關鍵字
    • 指導教授
  • 搜尋 TDR
  • 授權 Q&A
    • 我的頁面
    • 接受 E-mail 通知
    • 編輯個人資料
  1. NTU Theses and Dissertations Repository
  2. 電機資訊學院
  3. 資訊工程學系
請用此 Handle URI 來引用此文件: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/32877
標題: Free-DOM:萃取鬆散文件中的重要資訊並結構化之方法
Free-DOM:A Free-text Document Object Model
作者: Wen-Ting Wang
王文廷
指導教授: 項潔(Jieh Hsiang)
關鍵字: DOM,XML,資料萃取,正規表達式,
DOM,Document object model,Data extraction,Regular expression,XML,
出版年 : 2006
學位: 碩士
摘要: 全球資訊網(WWW)(World Wide Web)上的資料,絕大多數皆以HTML(HyperText Markup Language)文件呈現;而全球資訊網上資料的加值應用,則須以此廣大的文件庫為基礎。又因為HTML文件是一種內容與排版呈現描述交雜在一起的文件,並沒有語意結構的描述,所以重要資訊的線索並不存在標籤(TAG)之中,因此HTML文件不論在語意上或者在結構上皆為鬆散的文件。所以在鬆散文件中的資料萃取及資料操控問題尤為重要。觀察深層網頁,可以假設同一個網站中的文章排版風格相近,同文章中的重要資訊也有相同的排版風格,Free-DOM主要應用在此類的文章之上。對鬆散文件的資料萃取而言,正規表達式提供一個豐富且精準的萃取機制。對資料操控來說,文章物件模型(Document Object Model)(DOM)提供了一個重要的機制來處理結構化的文章。Free-DOM係指使用正規表達式萃取鬆散文件(Free-Text)中的重要資料,然後使用文章物件模型的概念來結構化萃取後的資料。為了要做全球資訊網路資料的加值應用,本文設計Free-DOM來萃取結構化鬆散文件中的重要資訊以提供程式語言操控或是直接以XML(Extensible Markup Language)格式輸出結構化文件之後讓DOM操控以利於做全球資訊網路資料的加值應用。
Most documents available over the World Wide Web are written in or transformed into HTML. However, HTML is a loosely structured language that mixes presentational style with content. It is therefore important to design ways that can extract data from HTML documents.
In this thesis we propose a method, Free-DOM (a Free-text Documents Object Model), for this purpose. Free-DOM is aimed at extracting data from HTML documents with a similar presentational format. It uses the regular expression to capture the structure of the format that it wants to extract, and the concept of DOM (Document Object Model) to manipulate the extracted data. Thus Free-DOM provides an extraction-and-manipulation language for free-text documents. Free-DOM supports programming languages (such as C++) as a library to pre-process and manipulate documents. It also works as a server-side script language to do value-added applications over the World Wide Web. We show the effectiveness of our method by several examples.
URI: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/32877
全文授權: 有償授權
顯示於系所單位:資訊工程學系

文件中的檔案:
檔案 大小格式 
ntu-95-1.pdf
  未授權公開取用
3.45 MBAdobe PDF
顯示文件完整紀錄


系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。

社群連結
聯絡資訊
10617臺北市大安區羅斯福路四段1號
No.1 Sec.4, Roosevelt Rd., Taipei, Taiwan, R.O.C. 106
Tel: (02)33662353
Email: ntuetds@ntu.edu.tw
意見箱
相關連結
館藏目錄
國內圖書館整合查詢 MetaCat
臺大學術典藏 NTU Scholars
臺大圖書館數位典藏館
本站聲明
© NTU Library All Rights Reserved