Skip navigation

DSpace

機構典藏 DSpace 系統致力於保存各式數位資料(如:文字、圖片、PDF)並使其易於取用。

點此認識 DSpace
DSpace logo
English
中文
  • 瀏覽論文
    • 校院系所
    • 出版年
    • 作者
    • 標題
    • 關鍵字
  • 搜尋 TDR
  • 授權 Q&A
    • 我的頁面
    • 接受 E-mail 通知
    • 編輯個人資料
  1. NTU Theses and Dissertations Repository
  2. 管理學院
  3. 資訊管理學系
請用此 Handle URI 來引用此文件: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/38414
標題: 以時間分析與多維度語句呈現為基礎之熱門話題萃取
Hot Topic Extraction with Timeline Analysis and Multidimensional Sentence Modeling
作者: Kuan-Yu Chen
陳冠宇
指導教授: 曹承礎
關鍵字: 主題偵測,熱門主題萃取,詞頻與文獻比例頻率,熱門字,多維度句子向量,
Topic Detection,Hot Topic Extraction,TF*PDF,Hot Term,Multidimensional Sentence Vector,
出版年 : 2005
學位: 碩士
摘要: 主題偵測(Topic Detection)是主題偵測與追蹤(Topic Detection and Tracking)裡其中一個研究領域,該領域試著從新聞媒體裡,進行搜尋、組織及建構文字形式的新聞資料。我們的研究為如何偵測「熱門」的主題(Hot Topic)。所謂熱門的主題,是在某一段時間之內,它會被很多人常常討論與報導。在之前的研究裡,可透過TF*PDF計算文字權重的式子,找到描述熱門主題的「熱門字」 (Hot Term)。不過它仍然會有一些問題存在:(一)只以字的出現頻率和文獻比例頻率為基礎的TF*PDF,萃取熱門字會導致不可靠的結果;(二)只用單一的句子向量並不足以表達句子的涵義。
因此我們提出了改良的熱門主題的萃取系統,來解決上述的兩個問題。首先,我們透過紀錄字在時間上的使用變化,來萃取熱門字;也就是說,追蹤任一個字的生命週期,可以幫助我們來分辨它是否為足以描述「熱門」主題的字。之後,我們使用多維度的句子向量,來描述句子的資訊。最後,我們對所有新聞報導裡的句子進行叢集(cluster),而每一個叢集代表著一個新聞話題。透過以上兩個流程的改善,根據實驗結果顯示,不但增進了每一個叢集的品質,也能夠萃取出一段時間內所包含的熱門主題。
Topic detection is part of the Topic Detection and Tracking field, which seeks to develop technologies that search, organize, and structure news-oriented textual materials from various broadcast news media. We are interested in detecting “hot” topics that are frequently discussed by people in a given period of time. A prior work on hot topic extraction that designed an innovative term-weighting scheme called TF*PDF, which extracts “hot” terms that can describe hot topics. One of the problems that happens in the process of extracting hot topics using TF*PDF is the unreliability of results when the weight is determined solely on term frequency and document frequency. Another problem is that using one single vector misrepresents the meaning of a sentence.
We propose a hot topic extraction system that aims to solve the two problems mentioned above. First, we extract the hot terms by capturing their variations of the time distribution within a timeline. In other words, tracking the life cycles of the terms can help us differentiate which term is a real hot term that describes a hot topic. Second, we use multi-dimensional sentence vectors to feature the information of a sentence. Finally we group the sentences of news report into clusters, which represent hot topics. Clustering the sentences by the multi-dimensional sentence vectors not only improves the quality of each cluster, but also extracts most of the actual hot topics over a period of time.
URI: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/38414
全文授權: 有償授權
顯示於系所單位:資訊管理學系

文件中的檔案:
檔案 大小格式 
ntu-94-1.pdf
  目前未授權公開取用
395.09 kBAdobe PDF
顯示文件完整紀錄


系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。

社群連結
聯絡資訊
10617臺北市大安區羅斯福路四段1號
No.1 Sec.4, Roosevelt Rd., Taipei, Taiwan, R.O.C. 106
Tel: (02)33662353
Email: ntuetds@ntu.edu.tw
意見箱
相關連結
館藏目錄
國內圖書館整合查詢 MetaCat
臺大學術典藏 NTU Scholars
臺大圖書館數位典藏館
本站聲明
© NTU Library All Rights Reserved