財經新聞自動分類之研究

陳淑美

請用此 Handle URI 來引用此文件： http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/75943

標題:	財經新聞自動分類之研究
作者:	陳淑美
出版年 :	1992
學位:	碩士
摘要:	本研究的目的，乃在於探究利用電腦將財經新聞自動分類之可性。藉由國外發展的各種統計方怯，來瞭解中文新聞資料中，詞彙與新聞及類別之問的關係，及各種統計方式在中文處理上的差異性，以工商時報2870篇財經新聞為實例，分析出各小類專業詞彙的數量、出現頻率、分佈狀態等特性，以支援用專有詞彙作為學習語料(training corpus)的理論基礎。並藉此研究歸納出人工分類與機械分類之問處理邏輯的異同，以提供日後資料庫更新維護的改進方向。本論文是以工商時報民國80年7月至8l年1月間2870篇見報之相關新聞作為抽樣統計的主體，分類範圍限於產業、商業、電機、機械、資訊等五大類，共46小類，實驗方式是將抽取樣本全部予以人工分類，並劃分為學習組（2583篇）和測試組（287篇）兩大部份，分別進行各項統計分析，最後紅比較各種自動分類方怯的效果；從實驗中發現，採用詞彙標準化頻率統計法的方式較為簡易，就整體而言，電腦自動分類的正確率也較高。根據研究結果可得到以下結論： 1．從本論文中可以發現，利用電腦儲存新聞，並作自動分類處理，確實是個可行的新作法，只要將學習語料的數量擴充，使詞彙總數趨於穩定，並修改統計缺失，當可使正確率提高，不過人工分類在實驗?看來，仍有其價值存在，如何使機械和人工分類邏輯判斷方式更契合，則有待日後努力。 2．中文資料雖不似英文般有明顯的空白區隔，但藉助發展漸趨成熟的中文斷詞系統，仍可以解決中文詞彙選取的問題。 3．自動分類的方式雖無法百分之百和專家分類的結果相符，但如果有足夠的學習語料，還是能有不錯的成績，且人工分類有因人而有不同的分法，藉由自動分類的精神，也可以減少人為分類的主觀偏差。
URI:	http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/75943
全文授權:	未授權
顯示於系所單位：	圖書資訊學系

文件中的檔案：

沒有與此文件相關的檔案。

顯示文件完整紀錄

系統中的文件，除了特別指名其著作權條款之外，均受到著作權保護，並且保留所有的權利。

DSpace

機構典藏 DSpace 系統致力於保存各式數位資料（如：文字、圖片、PDF）並使其易於取用。