請用此 Handle URI 來引用此文件:
http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/77476
完整後設資料紀錄
DC 欄位 | 值 | 語言 |
---|---|---|
dc.contributor.advisor | 陳正剛(Argon Chen) | |
dc.contributor.author | Li-Cheng Hsieh | en |
dc.contributor.author | 謝立成 | zh_TW |
dc.date.accessioned | 2021-07-10T22:03:52Z | - |
dc.date.available | 2021-07-10T22:03:52Z | - |
dc.date.copyright | 2018-08-24 | |
dc.date.issued | 2018 | |
dc.date.submitted | 2018-08-18 | |
dc.identifier.citation | 1. Altman, D. G., & Bland, J. M. (1994). Diagnostic tests. 1: Sensitivity and specificity. BMJ: British Medical Journal, 308(6943), 1552.
2. Breiman, L. (1984). Classification and regression trees: Routledge. 3. Fisher, R. A. (1936). The use of multiple measurements in taxonomic problems. Annals of eugenics, 7(2), 179-188. 4. Friedman, J. H. (1977). A recursive partitioning decision rule for nonparametric classification. IEEE Transactions on Computers(4), 404-408. 5. Kim, H., & Loh, W.-Y. (2003). Classification trees with bivariate linear discriminant node models. Journal of Computational and Graphical Statistics, 12(3), 512-530. 6. Nath, R., & Pavur, R. (1985). A new statistic in the one-way multivariate analysis of variance. Computational Statistics & Data Analysis, 2(4), 297-315. 7. Simpson, E. H. (1949). Measurement of diversity. nature. 8. Yildiz, O. T., & Alpaydin, E. (2005). Linear discriminant trees. International Journal of Pattern Recognition and Artificial Intelligence, 19(03), 323-353. 9. Youden, W. J. (1950). Index for rating diagnostic tests. Cancer, 3(1), 32-35. 10. 巫信融. (2009). 多層判別分析及其應用. (碩士), 國立臺灣大學, 工業工程學研究所. 11. 馬康恆. (2013). 利用接收者操作特徵曲線建構分類樹之研究與應用. (碩士), 國立臺灣大學, 工業工程學研究所. 12. 張富皓. (2014). 利用非參數型接收者操作特徵曲線建構統計分類樹之研究與應用. (碩士), 國立臺灣大學, 工業工程學研究所. 13. 曾煥澤. (2015). 多層混合分類樹研究及其腫瘤診斷之應用. (碩士), 國立台灣大學, 工業工程學研究所. 14. 楊邵桓. (2012). 乳房腫瘤超音波特徵之量化與效力分析. (碩士), 國立臺灣大學, 工業工程學研究所. 15. 賴淑俐. (2010). 多層判別分析理論與方法擴張及其於腫瘤診斷上的應用. (碩士), 國立臺灣大學, 工業工程學研究所. | |
dc.identifier.uri | http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/77476 | - |
dc.description.abstract | 分類樹(Classification Tree)在資料探勘以及機器學習領域上被廣泛使用來探討資料的分類,CART分類樹 (Classification and Regression Tree) 為分類樹中最常見的演算法,利用資料屬性條件二元分割資料,遞迴建構分類樹直至終止條件,透過末枝葉節點 (leaf node)進行資料分類。多層判別分析(Multi-layer Classifier, MLC)為另一種分類樹,透過二元或三元分割資料建構分類樹,於每層分割節點中擇一判定為未分類資料,再由此未分類之節點繼續分割直至停止條件。費雪線性判別分析 (Fisher Linear Discriminant, FLD) 則為一常見之屬性線性組合分類法,將資料屬性進行線性組合以最大化其組間變異並最小化組內變異,將資料從多維屬性空間投影至一維空間進行資料分類。
為探討CART分類樹和多層判別分析的分類表現,學者賴 (2010)建構二屬性二類別標竿資料進行兩種分類樹的性質探討及最佳分類結構之比較,此標竿資料會隨著其參數值增加而改變標竿資料之分佈情形,以探討兩種分類樹於不同資料分佈下之性質。透過標竿資料之分析,現行之CART分類樹與多層判別分析所建立之分類樹模型,會在不同的資料分佈情形下各有其不同效率之分類模型,因此可以證明兩種方法可互補彼此不足之處,賴 (2010)也據此提出混合兩種方法之分類樹演算法。 然賴 (2010)所提出之標竿資料型態為一階梯資料型態,僅適合探討經分割資料所建構之分類樹性質,並不適合屬性線性組合之FLD分類效能探討,因此本研究提出另一二類別二屬性資料標竿,可同時用以探討資料分割分類樹及屬性線性組合判別分析之吉尼係數(Gini index)下之分類表現及相關性質。 依據標竿資料之探討,本研究提出利用吉尼係數比值(Gini Ratio)來結合費雪線性判別分析及資料分割之分類樹演算法,嘗試結合CART分類樹、多層判別分析以及線性判別分析進行屬性選擇與節點分割。此演算法於各個分割階段利用Gini Ratio比較不同屬性個數之資料分割及線性組合判別分析之分類效能,以決定是否分割資料或進行屬性線性組合,並透過Wilk’s Lambda之檢定決定是否需展開新的一層。 研究最後使用乳房腫瘤良惡性分類的實例進行驗證,可以發現所提出之分類模型經交叉驗證之結果優於其他分類方法。 | zh_TW |
dc.description.abstract | Classification Tree is widely used in data analysis and machine learning. CART (Classification and Regression Tree) is one of the most popular algorithms in classification trees. CART recursively constructs the tree until terminating condition is met, and classifies the data through the leaf nodes. Multi-layer Classifier (MLC) is constructed by splitting data into binary or ternary nodes. One split node in each layer is selected as unclassified node, with which data is continued to split until terminating condition is met. Fisher Linear Discriminant (FLD) is a commonly used method to find a linear combination of features separating two classes. The linear combination of features aims to maximize the between-group variation and to minimize the within-group variation at the same time by projecting data from multi-dimensional feature space into one-dimensional space.
To compare the performance of CART and MLC, Lai (2010) proposes a two-feature-two-category benchmark data, comparing tree structure and performance of CART and MLC. As the parameter of the benchmark data increases, the distribution of the benchmark data varies. From the benchmark data, the tree models of CART and MLC have different properties and performances under different benchmark data parameter settings. Lai (2010) proves that the two methods are complement with each other. In addition, Lai (2010) also proposes an enhanced tree algorithm incorporating the advantages of the two tree methods. However, the benchmark data proposed by Lai (2010) is a ladder-shape data distribution, which is only suitable for comparing tree performances constructed by trees splitting data one feature at a time, and is not suitable for linear combination of features such as FLD. Thus, this study proposes another two-feature-two-category benchmark data which can be used to compare the performance of tree-like classifiers and linear determinants. In this study, Gini index is used for the splitting criteria and performance measurement . Based on the testing results of the proposed benchmark data, this study proposes a criterion, namely, Gini Ratio, to combine FLD with the classification tree algorithms. The proposed algorithm uses the Gini Ratio to compare the contribution of the linearly combined features by FLD and the sequential feature splitting by tree classifiers to reduction of the Gini index and select the most efficient classification method for each node with the Wilk's Lambda testing for the stopping criterion. . To test the performance of the integrated algorithm, the study uses a real breast cancer data set to verify the diagnosis performance of the proposed classifiation model compared to conventional tree models and FLD models. | en |
dc.description.provenance | Made available in DSpace on 2021-07-10T22:03:52Z (GMT). No. of bitstreams: 1 ntu-107-R05546022-1.pdf: 6184197 bytes, checksum: 6db04709c7debd74d667dfe49a25a38b (MD5) Previous issue date: 2018 | en |
dc.description.tableofcontents | 誌謝 i
中文摘要 ii ABSTRACT iv CONTENTS vi LIST OF FIGURES ix LIST OF TABLES xiv Chapter 1 緒論 1 1.1 研究背景 1 1.2 研究動機與目標 2 1.3 論文架構 3 Chapter 2 文獻探討 4 2.1 線性判別分析Discriminant Analysis 4 2.1.1 費雪線性判別分析(Fisher linear discriminant Analysis, FLD) 4 2.1.2 線性判別分析(linear discriminant analysis,LDA) 8 2.1.3 FLD與LDA之差異 9 2.1.4 Wilk’s Lambda 10 2.2 分類樹 11 2.2.1 CART分類樹 11 2.2.2 線性判別分類樹LDT 12 2.2.3 多層判別分析Multi-layer Classifier (MLC) 13 2.3 標竿資料(賴淑俐,2010) 18 2.3.1 利用Gini Index之CART分類樹標竿資料表現研究 24 2.3.2 利用Gini Index之多層判別分析標竿資料表現研究 24 2.4 多層混合分類樹(曾煥澤,2015) 24 Chapter 3 利用標竿資料的探討不同分類方法表現及性值 25 3.1 廣泛線性資料分佈之二維二類別標竿資料 27 3.2 分類方法之理論探討 30 3.2.1 線性判別分析FLD標竿資料表現研究 30 3.2.2 CART分類樹標竿資料表現研究 41 3.2.3 多層判別分析MLC標竿資料表現研究 53 3.2.4 標竿資料下FLD、MLC與CART表現能力比較 62 3.3 標竿資料下結合不同方法之理想分割模型 64 3.3.1 CART結合FLD(CART-FLD)之理想分割模型 65 3.3.2 MLC結合FLD之理想分割模型 74 3.3.3 標竿資料下之理想分割模型探討 77 Chapter 4 結合費雪線性判別分析之分類樹演算法 79 4.1 模型建構流程 79 4.1.1 切點選擇 79 4.1.2 模型效能評估 80 4.1.3 屬性及分割方式選擇 81 4.1.4 停止條件 85 4.2 模型建構流程圖 86 4.3 模型建構範例 87 Chapter 5 實例分析 93 5.1 資料說明 93 5.2 乳癌實例腫瘤診斷 93 Chapter 6 結論與未來研究建議 112 REFERENCE 114 APPENDIX 116 A. 標竿資料下使用FLD計算判別函數 116 B. 標竿資料下使用CART選擇x1進行分割不純度推導 120 C. 標竿資料下使用CART選擇x2進行分割不純度推導 123 D. 標竿資料下使用MLC選擇x1進行分割不純度推導 127 E. 標竿資料下使用MLC選擇x2進行分割不純度推導 130 F. 使用各方法應用在交叉驗證訓練樣本的指標值 142 G. 使用各方法應用在交叉驗證測試樣本的指標值 143 | |
dc.language.iso | zh-TW | |
dc.title | 結合費雪線性判別分析之分類樹理論及應用研究 | zh_TW |
dc.title | Researches and Applications of Integrating FLD and Classification Trees | en |
dc.type | Thesis | |
dc.date.schoolyear | 106-2 | |
dc.description.degree | 碩士 | |
dc.contributor.oralexamcommittee | 藍俊宏(Jakey Blue),范治民(Chih-Min Fan) | |
dc.subject.keyword | 分類樹,多層判別分析,Gini Index,Wilk’s Lambda檢定,Gini Ratio, | zh_TW |
dc.subject.keyword | Classification tree,Multi-layer Classifier,Wilks’ Lambda Test,Gini Ratio, | en |
dc.relation.page | 143 | |
dc.identifier.doi | 10.6342/NTU201803893 | |
dc.rights.note | 未授權 | |
dc.date.accepted | 2018-08-18 | |
dc.contributor.author-college | 工學院 | zh_TW |
dc.contributor.author-dept | 工業工程學研究所 | zh_TW |
顯示於系所單位: | 工業工程學研究所 |
文件中的檔案:
檔案 | 大小 | 格式 | |
---|---|---|---|
ntu-107-R05546022-1.pdf 目前未授權公開取用 | 6.04 MB | Adobe PDF |
系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。