Skip navigation

DSpace

機構典藏 DSpace 系統致力於保存各式數位資料(如:文字、圖片、PDF)並使其易於取用。

點此認識 DSpace
DSpace logo
English
中文
  • 瀏覽論文
    • 校院系所
    • 出版年
    • 作者
    • 標題
    • 關鍵字
  • 搜尋 TDR
  • 授權 Q&A
    • 我的頁面
    • 接受 E-mail 通知
    • 編輯個人資料
  1. NTU Theses and Dissertations Repository
  2. 生物資源暨農學院
  3. 農藝學系
請用此 Handle URI 來引用此文件: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/27111
標題: 資料採礦技術對資料庫加值成效評估之研究
The study of value-added database evaluation in data mining
作者: Ruey-Ling Yeh
葉瑞鈴
指導教授: 謝邦昌,劉清
關鍵字: 資料採礦,遺漏值,插補,函數映射,資料庫加值,C5.0,CART,BPNN,
Data mining,Missing data,Imputation,Functional Mapping,Value-added database,C5.0,CART,BPNN,
出版年 : 2008
學位: 博士
摘要: 在資訊科技的時代,資料對組織而言扮演著資訊來源的重要角色,當面臨資料有遺漏或不足之不完美資料庫時,從資料庫所得之結果可能提供有偏差或誤導的解決辦法;因此,對資料庫進行插補遺漏值及函數映射加值,已成為資料採礦之主要步驟之一。
當有目標資料庫與輔助資料庫時,可以利用函數映射方法使資料庫整合為一個大資料庫,即為加值後的資料庫,本研究之目的為當資料庫加值後,評估資料之架構及正確性。依不同的資料型態而使用不同的資料採礦技術建立插補及加值模型,連續資料使用迴歸分析及類神經網路,類別資料使用羅吉斯迴歸、類神經網路、C5.0 及 CART建立預測模型。
本研究以RMSE、正確率及Kappa統計量評估插補及加值資料庫之結果,研究結果顯示,對連續資料而言,迴歸分析提供最好的估計,但類別資料大部分以C5.0之結果較好。應用插補及函數映射使資料庫加值並增加大量的資料及資訊量,經過評估後,資料庫加值確實有其效果,對於進行資料採礦極具助益。
Data plays a vital role as a source of information to organizations, especially in times of information and technology. One encounters a not-so-perfect database from which data is missing or insufficient, and the results obtained from such a database may provide biased or misleading solutions. Therefore, imputing missing data and functional mapping to a database has been regarded as one of the major steps in data mining.
A goal database and an auxiliary database utilizing functional mapping make the database combine as a great database, the purpose of this research is to evaluate the structure of the data when the database has been value-added. The present research used different methods of data mining to construct imputative and value-added models in accordance with different types of data. When the missing data is continuous, regression models and Neural Networks are used to build predictive models. For the categorical missing data, the logistic regression model, neural network, C5.0 and CART are employed to construct predictive models.
In this research use RMSE , accuracy rate and Kappa statistic to examine the results of imputation and value-added database. The results showed that the regression model was found to provide the best estimate of continuous data; but for categorical data, the C5.0 model proved the best method.After the assessment of the data, using the imputation and functional mapping makes the database add value and increase the amount of information of the data. The value-added database really has its effect because the increase of the amount of information is good for the database that will carry on data mining.
URI: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/27111
全文授權: 有償授權
顯示於系所單位:農藝學系

文件中的檔案:
檔案 大小格式 
ntu-97-1.pdf
  目前未授權公開取用
3.94 MBAdobe PDF
顯示文件完整紀錄


系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。

社群連結
聯絡資訊
10617臺北市大安區羅斯福路四段1號
No.1 Sec.4, Roosevelt Rd., Taipei, Taiwan, R.O.C. 106
Tel: (02)33662353
Email: ntuetds@ntu.edu.tw
意見箱
相關連結
館藏目錄
國內圖書館整合查詢 MetaCat
臺大學術典藏 NTU Scholars
臺大圖書館數位典藏館
本站聲明
© NTU Library All Rights Reserved