Skip navigation

DSpace

機構典藏 DSpace 系統致力於保存各式數位資料(如:文字、圖片、PDF)並使其易於取用。

點此認識 DSpace
DSpace logo
English
中文
  • 瀏覽論文
    • 校院系所
    • 出版年
    • 作者
    • 標題
    • 關鍵字
  • 搜尋 TDR
  • 授權 Q&A
    • 我的頁面
    • 接受 E-mail 通知
    • 編輯個人資料
  1. NTU Theses and Dissertations Repository
  2. 工學院
  3. 工業工程學研究所
請用此 Handle URI 來引用此文件: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/4418
完整後設資料紀錄
DC 欄位值語言
dc.contributor.advisor陳正剛(Argon Chen)
dc.contributor.authorHuanze Zengen
dc.contributor.author曾煥澤zh_TW
dc.date.accessioned2021-05-14T17:42:09Z-
dc.date.available2020-08-28
dc.date.available2021-05-14T17:42:09Z-
dc.date.copyright2015-08-28
dc.date.issued2015
dc.date.submitted2015-08-19
dc.identifier.citationBreiman, L., Friedman, J., Stone, C. J., Olshen, R. A. (1984).Classification and regression trees. CRC press.
Budescu, D. V. (1993). Dominance analysis: A new approach to the problem of relative importance of predictors in multiple regression. Psychological Bulletin, 114(3), 542.
Chang, K. J., Chen, W. H., Chen, A., Chen, C. N., Ho, M. C., Tai, H. C., ... Wu, H. J. (2013). U.S. Patent No. 8,572,006. Washington, DC: U.S. Patent and Trademark Office.

DeLong, E. R., DeLong, D. M., Clarke-Pearson, D. L. (1988). Comparing the areas under two or more correlated receiver operating characteristic curves: a nonparametric approach. Biometrics, 837-845.
Fisher, R. A. (1950). The use of multiple measurements in taxonomic problems, Annual Eugenics, 7, Part II, 179-188 (1936); also in Contributions to Mathematical Statistics.

Hanley, J. A., McNeil, B. J. (1982). The meaning and use of the area under a receiver operating characteristic (ROC) curve. Radiology, 143(1), 29-36.
Johnson, J. W. (2000). A heuristic method for estimating the relative weight of predictor variables in multiple regression. Multivariate Behavioral Research, 35(1), 1-19.

McClish, D. K. (1989). Analyzing a portion of the ROC curve. Medical Decision Making, 9(3), 190-195.

Pepe, M. S. (1997). A regression modelling framework for receiver operating characteristic curves in medical diagnostic testing. Biometrika, 84(3), 595-608.

Youden, W. J. (1950). Index for rating diagnostic tests. Cancer, 3(1), 32-35.
張富皓,2014,利用非參數型接收者操作特徵曲線建構統計分類樹之研究與應用,國立台灣大學工業工程學研究所碩士論文。
莊曙詮,2010,多階段調適樹群模型建構方法及其於腫瘤分級之應用, 國立台灣大學工業工程學研究所碩士論文。
賴淑俐,2010,多層判別分析理論與方法擴張及其於腫瘤診斷上的應用,國立台灣大學工業工程學研究所碩士論文。
馬康恆,2013,利用接收者操作特徵曲線建構分類樹之研究與應用,國立台灣大學工業工程學研究所碩士論文。
巫信融,2009,多層判別分析及其應用,國立台灣大學工業工程學研究所碩士論文。
王彥龍,2013,概括性相對重要指標及變數選擇之研究及其於費雪線性區別分析於Cox比例風險迴歸之應用,國立台灣大學工業工程學研究所碩士論文。
dc.identifier.urihttp://tdr.lib.ntu.edu.tw/jspui/handle/123456789/4418-
dc.description.abstract分類樹(Classification Tree)在資料探勘領域上被廣泛使用來探討感興趣資料的分類,並應用於醫學、工程等領域的機器學習。分類樹主要分為兩個主要的類別,即分類與迴歸樹(Classification and regression trees, C ART) 和多變量分類樹。C ART常用於建構二元分類樹,一般利用Gini index 做為分割的準則。多層判別分析有別於C ART,其每一層的待分割節點皆會分割成兩個或三個節點,允許其中一節點為未分類資料,未分類節點資料可繼續透過使用其他屬性進行分割展開新的一層,而已確定類別的節點,則不再分割。由於在醫學探勘(如腫瘤診斷)中,結合費雪線性判別分析(FLD)的分類樹模型不一定能夠有效提升分類樹的分類效能,本文嘗試構造更有效的演算法並加以實例驗證。
在模型構造中,本研究先通過引入參數 來調節費雪線性組合屬性方案的比例。同時,根據賴淑俐學者(2010)所進行的理論探討發現,多層判別分析與C ART分類樹可以互補不足之處,本研究進而通過引入參數 調整多層判別分析和C ART分類樹的相對比重。當每一個節點進入演算法中時,先通過 和多層組合屬性方案決定是否需要採用費雪線性組合屬性方案及相應的特徵數,再通過 和非參數型接受者操作特徵(NP-ROC)來決定節點和切割方案,即決定是否分割成C ART的兩個節點或多層判別分析的兩個節點或三個節點。
為了驗證此模型,本研究利用臺大醫院所提供的366筆乳房腫瘤案例來測試,其中266筆做為訓練樣本用於選擇和訓練參數,而100筆則固定作為獨立測試樣本,從而比較多層混合分類樹與C ART、多層判別分析和強化多層判別分析的單一分類樹的判別結果和多階段調適樹群(莊曙詮,2012)的BI-RADS分級結果,驗證判別模型效能。
從案例驗證的結果中,可以看出新演算法的分類效能確實優於其他方法,且能在顯著增加多階段調適樹群BIRADS 3的良性個數同時,將惡性比例維持在可接受的範圍內。
zh_TW
dc.description.abstractThe classification decision tree is the most commonly used classification tool in data mining and machine learning in medical and engineering applications. There are mainly two types of classification trees: C ART and multivariate classification tree. The C ART is usually used and constructed by a hierarchical tree of decision nodes. The structure of the Multi-layer Classifier, proposed by Wu (2009), is differs from the C ART by constructing each layer consisting of two or three nodes, of which only the node with unclassified data will be classified further into the next layer and the rest nodes contain data completely classified. The tree construction continues until a stop criterion is reached. However, the structure of the Multi-layer Classifier or C ART combined with Fisher Linear Discriminant analysis (FLD) may not improve classification tree efficiency when it is applied to medical exploration (such as diagnosis of tumor). Hence, this thesis aims at constructing a more effective Multi-layer Hybrid Classification Tree and utilizes empirical data to validate its performance.
In the modeling of tree structure, this study first introduces a parameter, , to be used to adjust the proportion of nodes constructed by FLD. At the same time, according to the theoretical discussion by Lai (2010), the multi-layer classifier and the C ART can complement each other’s insufficiency. Therefore, this study introduces a second parameter, , to be used to adjust likelihood for each tree layer of data to be classified according to the Multi-layer or C ART decision. When a node is to be split, it needs to decide first whether to apply FLD based on the value of . Then it needs to decide whether to split into two nodes with C ART decision or three (or two) nodes with Multi-layer decision based on the value of .
In order to verify the performance of the proposed model, this study uses 366 breast cancer cases provided by National Taiwan University Hospital (NTUH) to test the proposed tree, 266 of which are taken as training samples for selection and training parameters, and the other 100 is isolated as the independent test sample. We compare this proposed Multi-layer Hybrid Classifier with C ART, Multi-Layer Classification Tree (ML-ROC), as well as Enhanced Multi-layer Classification Tree(Enhanced-ML-ROC) proposed by Lai (2010) based on results of single tree performance and BI-RADS results generated by Adaptive Multi-phase Ensemble (Chuang, 2012).
Based on the verification results, it is found that the classification efficiency of the newly proposed algorithm is indeed superior to other methods, and the BIRADS result shows that it not only increases the benign case number of BIRADS 3 by an observable size, but also maintains the number malignant cases of BIRADS 3 in an acceptable range.
en
dc.description.provenanceMade available in DSpace on 2021-05-14T17:42:09Z (GMT). No. of bitstreams: 1
ntu-104-R02546038-1.pdf: 3017554 bytes, checksum: 51ec26f4896a21de014acaf9faa753bc (MD5)
Previous issue date: 2015
en
dc.description.tableofcontents口試委員會審定書 #
誌謝 i
中文摘要 ii
ABSTRACT iv
CONTENTS vi
LIST OF FIGURES ix
LIST OF TABLES xii
Chapter 1 Introduction 13
1.1 研究背景 13
1.2 研究動機與研究目標 13
1.3 論文架構 14
Chapter 2 文獻探討 15
2.1 接收者操作特徵曲線 15
2.1.1 ROC curve之建立 15
2.1.2 ROC curve之線下面積 18
2.1.3 參數型接收者操作特徵曲線 19
2.2 非參數型接收者操作特徵曲線線下面積之統計檢定 20
2.2.1 NP-ROC之線下面積 20
2.2.2 AUC之無母數統計檢定 22
2.3 分類樹 24
2.3.1 C ART 24
2.3.2 多層判別分析 27
2.3.3 C ART分類樹與多層判別分析分類能力之說明與比較 32
2.4 費雪線性判別 39
2.4.1 費雪線性判別分析 39
2.4.2 相對重要性指標 41
2.5 BI-RADS腫瘤分級系統 42
Chapter 3 利用NP-ROC建構多層混合分類樹 43
3.1 部分線下面積統計檢定方法之選擇 43
3.2 建構模型之流程 44
3.2.1 基於單一屬性之建構流程 44
3.2.2 結合費雪線性判別之建構流程 45
3.3 模型架構 47
3.4 主要屬性評估方案建構流程 50
3.4.1 單一屬性及多層組合屬性方案建構流程 53
3.4.2 費雪線性組合屬性方案建構之流程 60
3.5 多層混合分類樹參數之功能與影響 60
3.5.1 在樹群大小調整中的影響及作用 61
3.5.2 在線性組合方案比重調整中的作用及影響 61
3.5.3 在C ART和多層判別分析比重調整中的作用及影響 63
3.6 多層混合分類樹參數之設定 64
Chapter 4 實例驗證 65
4.1 資料說明 65
4.2 單一建樹結果彙整及多階段調適樹群模型最佳參數之決定 66
4.3 乳癌腫瘤實例驗證 67
4.3.1 模型建構結果彙整與比較(方法一) 67
4.3.2 模型建構結果彙整與比較(方法二) 69
Chapter 5 結論與未來研究建議 70
REFERENCE 72
附錄:五種分類樹方法獨立測試BIRADS分級結果 74
1.1 C ART-Gini樹群(方法一) 74
1.2 ML-ROC樹群(方法一) 76
1.3 ML-FLD-ROC樹群(方法一) 78
1.4 Enhanced -ML-ROC樹群(方法一) 80
1.5 Hybrid-noFLD樹群(方法一) 82
1.6 C ART-Gini樹群(方法二) 84
1.7 ML-ROC樹群(方法二) 86
1.8 ML-FLD-ROC樹群(方法二) 88
1.9 Enhanced -ML-FLD-ROC樹群(方法二) 90
1.10 Hybrid-noFLD樹群(方法二) 92
dc.language.isozh-TW
dc.title多層混合分類樹研究及其腫瘤診斷之應用zh_TW
dc.titleStudy of Multi-layer Hybrid Classification Tree with Applications to Cancer Diagnosisen
dc.typeThesis
dc.date.schoolyear103-2
dc.description.degree碩士
dc.contributor.oralexamcommittee郭文宏(Wen-Hung Kuo),陳炯年(Chiung-Nein Chen)
dc.subject.keywordC&ART分類樹,多層判別分析,多層混合分類樹,接收者操作特徵曲線,費雪線性分析,zh_TW
dc.subject.keywordClassification and regression trees,Multi-layer Classifier,Nonparametric AUC,Multi-layer Hybrid Classification Tree,Fisher discriminant analysis,en
dc.relation.page95
dc.rights.note同意授權(全球公開)
dc.date.accepted2015-08-19
dc.contributor.author-college工學院zh_TW
dc.contributor.author-dept工業工程學研究所zh_TW
顯示於系所單位:工業工程學研究所

文件中的檔案:
檔案 大小格式 
ntu-104-1.pdf2.95 MBAdobe PDF檢視/開啟
顯示文件簡單紀錄


系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。

社群連結
聯絡資訊
10617臺北市大安區羅斯福路四段1號
No.1 Sec.4, Roosevelt Rd., Taipei, Taiwan, R.O.C. 106
Tel: (02)33662353
Email: ntuetds@ntu.edu.tw
意見箱
相關連結
館藏目錄
國內圖書館整合查詢 MetaCat
臺大學術典藏 NTU Scholars
臺大圖書館數位典藏館
本站聲明
© NTU Library All Rights Reserved