Skip navigation

DSpace

機構典藏 DSpace 系統致力於保存各式數位資料(如:文字、圖片、PDF)並使其易於取用。

點此認識 DSpace
DSpace logo
English
中文
  • 瀏覽論文
    • 校院系所
    • 出版年
    • 作者
    • 標題
    • 關鍵字
  • 搜尋 TDR
  • 授權 Q&A
    • 我的頁面
    • 接受 E-mail 通知
    • 編輯個人資料
  1. NTU Theses and Dissertations Repository
  2. 電機資訊學院
  3. 資訊網路與多媒體研究所
請用此 Handle URI 來引用此文件: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/56676
標題: Gotcha: 透過操作視覺化排版搜尋學術文件的系統
Gotcha: Academic Paper Retrieval System Using Visual Layout Manipulation
作者: Eugene Chang
張佑成
指導教授: 歐陽明(Ming Ouhyuong)
關鍵字: 學術論文搜尋,圖像搜尋與檢索,多媒體系統,
Multimedia system,Document Retrieval,RLSA,Document Segmentation,
出版年 : 2014
學位: 碩士
摘要: 自從電腦的發明後,人類就一直在使用電腦做文件搜尋,即使經歷 GUI (圖形化介面) 和滑鼠的普及化後,搜尋文件最快的方式依然是使用文字。但是,近年來由於電腦圖學和相關科技的快速演進,彩色圖片和彩色影像這些多媒體數位內容也開始大量產生。而這些媒體數位內容也對文件產生了極大的影響:數位文件的內容已經不像早期只侷限於文字和表格,它也包括了彩色影像。當擁有這些內容的文件越來越多以後,由於這些內容常難以用文字形容,因此讓文件搜尋也會變得日益困難。
若從心理學的角度來看,人類的大腦天生就對視覺景象和空間位置有極強的記憶力,如果數位文件的內容已經不限於文字和表格,相對的,搜尋文件的方式也不該侷限於文字。有鑑於此,本研究提出Gotcha:一套透過操作視覺化排版搜尋學術文件的系統。 這套系統能透過電腦視覺的方式,快速的分析並記錄文件頁面的視覺化排版,同時具備一個創新且容易使用的介面,讓使用者能直覺的善用視覺化排版來快速搜尋這些文件,而非僅靠關鍵字來搜尋,因而建立一個符合人類大腦對視覺景象和空間位置強大記憶力的搜尋系統。本研究在系統實作上,使用了改良過的RLSA (Running Length Smoothing Algorithm) 演算法,來擷取文件頁面有內容的區塊。在取出這些區塊Color和Gabor的特徵後,再利用SVM (Support Vector Machine) 針對這些特徵去做分類,得出一個高達86%準確率的Classifier。最終,設計出一個能讓使用者在Canvas上面,只要畫出並且標示一些用來代表有內容的區塊的矩形,就可以透過計算找出在形狀和位置相似度最高的文件頁面。本研究提出的系統Gotcha經過使用者測試後,在視覺化搜尋文件的效率上,依據統計分析的結果(95% confidence level, t=2.89),比傳統單純依靠觀看縮圖搜尋文件的方式提昇400%。
In recent years, there is an increase of documents containing graphical contents. With the abundance of these non-textual content inside the documents, it will be harder for the document viewer to describe the content only in textual words. This will increase the difficulty of text-based searching, raising a demand for searching the documents by describing the content visually instead of using text. In this paper, we propose Gotcha, a novel system of searching academic papers by analyzing and recording the visual layout of document pages to allow its users to retrieve these papers by using a query based on visual clues instead of keyword. We were able to achieve these goals by using the following method: First, we utilize a modified version of the Running Length Smoothing Algorithm (RLSA) to segment a document page into blocks of content. Second, we extract the visual features of these blocks and classify them into different types of content using the Support Vector Machine (SVM) classifier with 86% accuracy. Finally, we design a novel user interface to enable the users to sketch a simple query based on the visual layout of their desired document, and retrieve all the document pages with content blocks that matches the user query in terms of shape and position. From the result of our user study, we corroborate that our system is better than document retrieval by looking through thumbnail images in a traditional file finder in terms of task completion time, with a confidence level of 95% (t =2.89). Our system nearly improves the document retrieval time by 4 times.
URI: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/56676
全文授權: 有償授權
顯示於系所單位:資訊網路與多媒體研究所

文件中的檔案:
檔案 大小格式 
ntu-103-1.pdf
  目前未授權公開取用
7.26 MBAdobe PDF
顯示文件完整紀錄


系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。

社群連結
聯絡資訊
10617臺北市大安區羅斯福路四段1號
No.1 Sec.4, Roosevelt Rd., Taipei, Taiwan, R.O.C. 106
Tel: (02)33662353
Email: ntuetds@ntu.edu.tw
意見箱
相關連結
館藏目錄
國內圖書館整合查詢 MetaCat
臺大學術典藏 NTU Scholars
臺大圖書館數位典藏館
本站聲明
© NTU Library All Rights Reserved