請用此 Handle URI 來引用此文件:
http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/92890| 標題: | 機器學習於預測保險複數理賠案件之比較分析 Comparative Analysis of Machine Learning Techniques for Predicting Multiple Insurance Claims |
| 作者: | 蔣依儒 Yi-Ju Chiang |
| 指導教授: | 蔡政安 Chen-An Tsai |
| 關鍵字: | 多元輸出回歸,多元回歸樹,CatBoost,Tweedie,鏈迴歸,變數重要性,SHAP值, multi-output,multivariate regression tree,CatBoost,Tweedie,chain regression,variable importance,SHAP values, |
| 出版年 : | 2024 |
| 學位: | 碩士 |
| 摘要: | 本論文利用進階的機器學習方法探討多元輸出回歸問題。研究將決策樹、隨機森林、CatBoost和Tweedie以及鏈回歸等方法應用於兩個不同的保險複數理賠資料集:LGPIF 資料集和西班牙資料集,並進行全面的分析。為了評估不同模型在單變量輸出與多變量輸出上的預測能力,研究使用均方誤差(MSE)作為評估指標。此外,研究也運用基尼重要性、排列重要性和 SHAP 值等方法,深入探討各變數對於模型預測的重要貢獻程度。本研究為複雜資料在不同模型及變數選擇方面提供了有價值的見解,增進了機器學習在多元輸出迴歸方面的了解,並為未來的研究提供了相關指引。 With this work, we investigate the recent advancements in machine learning techniques for insurance claims data, utilizing both univariate and multivariate approaches. This research applies decision trees, random forests, CatBoost, and Tweedie regression, in addition to innovative ensemble methods such as chain regression, to two insurance claims datasets: the LGPIF dataset and a Spanish dataset. Comprehensive data analysis is conducted, and the models'' predictive performances are evaluated using mean squared error (MSE). The study also explores variable importance through Gini importance, permutation importance, and SHAP values. Our experiments provide valuable insights into the effectiveness of various models and feature selection strategies for regression tasks involving complex data. This work enhances the understanding of machine learning applications in regression analysis and provides practical guidance for future implementations. |
| URI: | http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/92890 |
| DOI: | 10.6342/NTU202401271 |
| 全文授權: | 未授權 |
| 顯示於系所單位: | 統計碩士學位學程 |
文件中的檔案:
| 檔案 | 大小 | 格式 | |
|---|---|---|---|
| ntu-112-2.pdf 未授權公開取用 | 10.2 MB | Adobe PDF |
系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。
