發展先進資料增強技術以分析良莠比例失衡資料

Yan-Cheng Liu; 劉晏誠

請用此 Handle URI 來引用此文件： http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/79970

標題:	發展先進資料增強技術以分析良莠比例失衡資料 On Development of Advanced Data Augmentation Technique for Imbalanced Data Analytics
作者:	Yan-Cheng Liu 劉晏誠
指導教授:	藍俊宏(Jakey Blue)
關鍵字:	不平衡資料,主成分分析,馬氏距離,資料增強,資料重抽樣,機器學習,良率分析, imbalanced data,principal component analysis,Mahalanobis distance,data augmentation,resampling,machine learning,yield analytics,
出版年 :	2021
學位:	碩士
摘要:	" 在執行實例分類任務時，資料不平衡是各產業中常見且棘手的問題，在使用機器學習模型分析此類資料時，模型無法學到欲關注的目標，例如通常為少量的瑕疵樣本。為了解決不平衡類別資料造成的分類難題，常見解法有三：針對判錯樣本的模型學習、資料重抽樣及產生人工合成少數類別樣本。然而以上的方法仍有不足之處，如資料重抽樣容易導致模型過度擬合或刪除重要的樣本資訊、針對判錯樣本加強學習則在遇到極端不平衡的資料時，改善幅度有限、產生人工資料樣本有可能會產生與多數類別樣本相似的資料。鑒於上述三種解法改善幅度有限，本研究提出基於主成分之馬氏距離 (Principal Component-based Mahalanobis Distance, PCMD) 的生成方法，此方法之目的為在建立屬於各少數類別自有的空間後，再生成少數類別樣本。先將標準化的資料以PCA降維後，再以各個少數類別樣本為中心，計算每筆資料對其的馬氏距離，並透過卡方檢定去過濾資料完成分布的更新，最後再藉由得出多數類別樣本之最短或次短距離作為生成樣本的限制來產生新樣本，藉由此種考慮多數類別、以各個少數類別為中心、並更新其分布的過程來生成與少數類別相似的人工樣本，接著使用五種分類模型: Logistic Regression (LR)、Random Forest (RF)、Support Vector Machine (SVM)、eXtreme Gradient Boosting (XGBoost) 及Light Gradient Boosting Machine (LGBM) 進行分析，最後與現有產生人工資料的方法SMOTE、ADASYN、VAE、GAN作為標竿進行預測之效果比較。研究結果顯示，本研究提出的PCMD方法在各模型上皆可得到比現有生成方法還要更好的結果，其中更以LR模型得到的召回率最高，XGBoost模型之結果在各類資料上最穩定。關鍵詞：不平衡資料；主成分分析；馬氏距離；資料增強；資料重抽樣；機器學習；良率分析"
URI:	http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/79970
DOI:	10.6342/NTU202101678
全文授權:	同意授權(全球公開)
電子全文公開日期:	2026-08-01
顯示於系所單位：	工業工程學研究所

文件中的檔案：

檔案	大小	格式
U0001-2207202123215800.pdf 此日期後於網路公開 2026-08-01	2.65 MB	Adobe PDF

顯示文件完整紀錄

系統中的文件，除了特別指名其著作權條款之外，均受到著作權保護，並且保留所有的權利。

DSpace

機構典藏 DSpace 系統致力於保存各式數位資料（如：文字、圖片、PDF）並使其易於取用。