請用此 Handle URI 來引用此文件:
http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/75943
標題: | 財經新聞自動分類之研究 |
作者: | 陳淑美 |
出版年 : | 1992 |
學位: | 碩士 |
摘要: | 本研究的目的,乃在於探究利用電腦將財經新聞自動分類之可性。藉由國外發展的各種統計方怯,來瞭解中文新聞資料中,詞彙與新聞及類別之問的關係,及各種統計方式在中文處理上的差異性,以工商時報2870篇財經新聞為實例,分析出各小類專業詞彙的數量、出現頻率、分佈狀態等特性,以支援用專有詞彙作為學習語料(training corpus)的理論基礎。並藉此研究歸納出人工分類與機械分類之問處理邏輯的異同,以提供日後資料庫更新維護的改進方向。 本論文是以工商時報民國80年7月至8l年1月間2870篇見報之相關新聞作為抽樣統計的主體,分類範圍限於產業、商業、電機、機械、資訊等五大類,共46小類,實驗方式是將抽取樣本全部予以人工分類,並劃分為學習組(2583篇)和測試組(287篇)兩大部份,分別進行各項統計分析,最後紅比較各種自動分類方怯的效果;從實驗中發現,採用詞彙標準化頻率統計法的方式較為簡易,就整體而言,電腦自動分類的正確率也較高。 根據研究結果可得到以下結論: 1.從本論文中可以發現,利用電腦儲存新聞,並作自動分類處理,確實是個可行的新作法,只要將學習語料的數量擴充,使詞彙總數趨於穩定,並修改統計缺失,當可使正確率提高,不過人工分類在實驗?看來,仍有其價值存在,如何使機械和人工分類邏輯判斷方式更契合,則有待日後努力。 2.中文資料雖不似英文般有明顯的空白區隔,但藉助發展漸趨成熟的中文斷詞系統,仍可以解決中文詞彙選取的問題。 3.自動分類的方式雖無法百分之百和專家分類的結果相符,但如果有足夠的學習語料,還是能有不錯的成績,且人工分類有因人而有不同的分法,藉由自動分類的精神,也可以減少人為分類的主觀偏差。 |
URI: | http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/75943 |
全文授權: | 未授權 |
顯示於系所單位: | 圖書資訊學系 |
文件中的檔案:
沒有與此文件相關的檔案。
系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。