發展資料不平衡與類別變數限制下的生產良率分類模型

Chung-Cheng Huang; 黃鍾承

請用此 Handle URI 來引用此文件： http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/81374

標題:	發展資料不平衡與類別變數限制下的生產良率分類模型 On the Development of Production Yield Classification Model Under Imbalanced Data and Categorical Variable Constraints
作者:	Chung-Cheng Huang 黃鍾承
指導教授:	藍俊宏(Jyun-Hong Lan)
關鍵字:	不平衡資料,類別變數,資料重採樣,資料增能擴充,錯誤偵測與分類,機器學習模型, imbalanced data,categorical variables,oversampling,undersampling,data augmentation,fault detection and classification,machine learning algorithms,
出版年 :	2021
學位:	碩士
摘要:	錯誤偵測及預測的系統為許多先進製程中重要的分析環節，判斷的方法常以對資料分類或分群來判斷產品或在製品的正常或異常狀態。傳統上，利用機器學習演算法建立的良率分類模型，往往能夠達到很好的效果。然而類別間的比例失衡是實務上常見的資料特性，例如科技業製程中，一般僅有千分之一或甚至到百萬分之一的機率會出現不良品，因此大部分以整體分類正確率為目標的演算法很容易將全部的資料預測成良品，以達到極高的正確率，卻其實沒有真正學習到類別之間的差異性，更忽略了誤判不良品所帶來的極高成本，此類模型並無任何實質的應用價值。近年針對上述問題的文獻多以資料擴充方法 (data augmentation) 或模型參數調整來解決外，也有透過先對資料特性進行分析，例如：不平衡比例、密集程度、類別間的重疊度或是在同類別中又存在著大小不同的群體等性質，再進行資料擴充，惟上述的擴充基礎皆根基於數值型變數。本論文承接此一基礎，轉發展非數值型變數，例如全為二元變數時，該如何進行資料擴充。我們利用漢明距離 (Hamming distance) 計算二元特徵間的相似度，透過少數類別和多數資料的互動關係提出一嶄新的上採樣 (oversampling) 方法，經降低資料中噪音的干擾和重疊度後，將新資料生成在少數類別之間，或是避開多數類別的混淆。最後，本研究透過結合下採樣 (undersampling) 以及訓練集資料平衡比例的控制，對經過不同資料擴充方法的訓練集和常見的模型做多種組合的實驗分析，結果發現有進行上採樣的訓練集，其模型表現較佳；而對於極度不平衡且皆為類別變數的資料，透過本論文提出的方法亦能發現訓練集的改變對於最後的指標較有顯著的效果，而不同模型所帶來的影響則相對小。
URI:	http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/81374
DOI:	10.6342/NTU202101424
全文授權:	同意授權(限校園內公開)
電子全文公開日期:	2026-07-13
顯示於系所單位：	工業工程學研究所

文件中的檔案：

檔案	大小	格式
U0001-1307202101122500.pdf 未授權公開取用	5.88 MB	Adobe PDF	檢視/開啟

顯示文件完整紀錄

系統中的文件，除了特別指名其著作權條款之外，均受到著作權保護，並且保留所有的權利。

DSpace

機構典藏 DSpace 系統致力於保存各式數位資料（如：文字、圖片、PDF）並使其易於取用。