Skip navigation

DSpace

機構典藏 DSpace 系統致力於保存各式數位資料(如:文字、圖片、PDF)並使其易於取用。

點此認識 DSpace
DSpace logo
English
中文
  • 瀏覽論文
    • 校院系所
    • 出版年
    • 作者
    • 標題
    • 關鍵字
  • 搜尋 TDR
  • 授權 Q&A
    • 我的頁面
    • 接受 E-mail 通知
    • 編輯個人資料
  1. NTU Theses and Dissertations Repository
  2. 電機資訊學院
  3. 資訊工程學系
請用此 Handle URI 來引用此文件: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/15437
完整後設資料紀錄
DC 欄位值語言
dc.contributor.advisor張智星(Jyh-Shing Jang)
dc.contributor.authorShu-Yu Choen
dc.contributor.author卓書宇zh_TW
dc.date.accessioned2021-06-07T17:40:37Z-
dc.date.copyright2020-07-27
dc.date.issued2020
dc.date.submitted2020-07-23
dc.identifier.citation[1] H. Akaike. Fitting autoregressive models for prediction. Annals of the institute of Statistical Mathematics, 21(1):243–247, 1969.
[2] H. Akaike. Maximum likelihood identification of gaussian autoregressive moving average models. Biometrika, 60(2):255–265, 1973.
[3] H. B. Barlow. Unsupervised learning. Neural computation, 1(3):295–311, 1989.
[4] G. E. Box and D. A. Pierce. Distribution of residual autocorrelations in autoregressive-integrated moving average time series models. Journal of the American statistical Association, 65(332):1509–1526, 1970.
[5] R. Caruana and A. Niculescu-Mizil. An empirical comparison of supervised learning algorithms. In Proceedings of the 23rd international conference on Machine learning, pages 161–168, 2006.
[6] C. Chatfield. Time-series forecasting. CRC press, 2000.
[7] K. M. T. F. T. Liu and Z. Zhou. Isolation forest. Eighth IEEE International Conference on Data Mining, Pisa, pages 413–422, 2008.
[8] J. M. Keller, M. R. Gray, and J. A. Givens. A fuzzy k-nearest neighbor algorithm. IEEE transactions on systems, man, and cybernetics, (4):580–585, 1985.
[9] Y. R. LAB. A benchmark dataset for time series anomaly detection.
[10] H. M. and D. M. Minimum covariance determinant. Wiley Interdisciplinary Computational Statistics, 2010.
[11] M. G. M. Amer and S. Abdennadher. Enhancing one-class support vector machines for unsupervised anomaly detection. ACM SIGKDD Workshop Outlier Detection Description, pages 8–15, 2013.
[12] F. Pedregosa, G. Varoquaux, A. Gramfort, V. Michel, B. Thirion, O. Grisel, M. Blondel, P. Prettenhofer, R. Weiss, V. Dubourg, J. Vanderplas, A. Passos, D. Cournapeau, M. Brucher, M. Perrot, and E. Duchesnay. Scikit-learn: Machine learning in Python. Journal of Machine Learning Research, 12:2825–2830, 2011.
[13] S. Salvador, P. Chan, and J. Brodie. Learning states and rules for time series anomaly detection. In FLAIRS conference, pages 306–311, 2004.
[14] J. A. Suykens and J. Vandewalle. Least squares support vector machine classifiers. Neural processing letters, 9(3):293–300, 1999.
[15] M. W. H. M. L. Z. M. Z. W. R. Chen, Y. H. Yun and Y. Z. Liang. Representative subset selection and outlier detection via isolation forest. Anal. Methods., 8(39):7225–7231, 2016.
dc.identifier.urihttp://tdr.lib.ntu.edu.tw/jspui/handle/123456789/15437-
dc.description.abstract現實生活中有許多資料與時間的變化有著不可分割的相關性,例如股票的資訊或者晶片溫度等等。而人們通常會利用這些時間序列的資料來做一些分析,例如股票預測或者晶片是否有異常發生等問題。本篇論文的目的為利用機器學習的方式來偵測時間序列 (time series) 的異常,這些異常的預測可以避免一些危險發生以及降低異常發生後所需之成本。偵測方式主要分為兩大類,一種是以分群為基礎的方式去做預測,將時間序列的資料單純以數值來做分析,將訓練資料根據異常比例來產生一個模型,主要的方法為 K-鄰近演算法 (k-nearest neighbors),單類別支援向量機 (one-class support vector machine),孤立森林 (isolation forest),橢圓形包絡面 (elliptic envelope)。第二種方式利用時間序列的預測 (time series forecast) 來進行異常偵測,主要是利用現有的訓練資料去預測後續的資料,而這些資料也同時保有時間上的關聯,而最後以預測值與測量值的差距去判斷是否為異常點。本論文用到的時間序列預測模型包含自迴歸模型(auto regressive),遞迴神經網絡 (recurrent neural network),長短期記憶網路 (long short-term memory)。最後我們發現在上述方法中並無絕對優勢的模型,我們將會根據不同資料集來決定要使用哪一種模型。zh_TW
dc.description.abstractThere are many instances of data with inseparable correlation with time in the real world, for instance, stock prices or on-chip thermal temperatures.People usually use these time series (TS) data for more analysis and prediction, such as stock prediction or anomaly detection.The purpose of this thesis is to use machine learning to detect anomalies in a time series. If an anomaly is detected correctly, it can avoid dangerous situations and reduce repair cost. There are two types of methods for anomaly detection. The first type is based on clustering, which builds a model on training data with no labels, and then divides the data into normal and abnormal by using a given anomaly ratio. Some well-known methods of this type are k-nearest neighbors (KNN), one-class support vector machine (OCSVM), isolation forest (IF) and elliptic envelope (EE). The other type is based on time series forecast to detect anomalies. It computes the distance between the predicted TS values and measured TS values to determine if a given point is normal or abnormal. The models used in this study for TS predictor include auto regressive (AR) model, recurrent neural network (RNN), long short-term memory (LSTM). Finally, we found that there is no single best model in general, and we usually need to perform model comparison in order to select the best one for a given dataset.en
dc.description.provenanceMade available in DSpace on 2021-06-07T17:40:37Z (GMT). No. of bitstreams: 1
U0001-2307202012173000.pdf: 3947849 bytes, checksum: 23154c4f2de8c0feea57183bc308a8f6 (MD5)
Previous issue date: 2020
en
dc.description.tableofcontents誌謝 iii
摘要 v
Abstract vii
1 緒論 1
1.1 主題簡介 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 方法簡介 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3 章節敘述 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2 文獻探討 5
2.1 以分群為基礎之模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.1.1 K-鄰近演算法 . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.1.2 單類別支援向量機 . . . . . . . . . . . . . . . . . . . . . . . . 7
2.1.3 孤立森林 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.1.4 橢圓形包絡面 . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.2 以預測為基礎之模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.2.1 自迴歸模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.2.2 自迴歸滑動平均模型 . . . . . . . . . . . . . . . . . . . . . . . 12
2.2.3 差分整合移動平均自迴歸模型 . . . . . . . . . . . . . . . . . . 13
2.2.4 遞歸神經網路 . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.2.5 長短期記憶網路 . . . . . . . . . . . . . . . . . . . . . . . . . 14
3 語料庫簡介 15
3.1 Yahoo 網路流量資料集 . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.2 Ansys 晶片熱能資料集 . . . . . . . . . . . . . . . . . . . . . . . . . . 15
4 研究方法 19
4.1 時間序列資料前處理 . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
4.1.1 去趨勢化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
4.1.2 去除季節性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
4.2 損失函數以及評量方式 . . . . . . . . . . . . . . . . . . . . . . . . . . 22
4.2.1 均方根誤差 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
4.2.2 交叉熵 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
4.2.3 混淆矩陣 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
4.2.4 處罰矩陣 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
4.3 時間序列異常偵測之流程設計 . . . . . . . . . . . . . . . . . . . . . . 27
4.3.1 以分群為基礎之模型 . . . . . . . . . . . . . . . . . . . . . . . 27
4.3.2 以預測為基處之模型 . . . . . . . . . . . . . . . . . . . . . . . 29
4.4 時間序列異常分類之流程設計 . . . . . . . . . . . . . . . . . . . . . . 32
4.4.1 隨機森林 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
4.4.2 長短期記憶網路 . . . . . . . . . . . . . . . . . . . . . . . . . 33
5 實驗結果與分析 35
5.1 實驗一:以分群為基礎的模型之比較 . . . . . . . . . . . . . . . . . . 35
5.2 實驗二:差分整合移動平均自迴歸模型之效能之比較 . . . . . . . . . 36
5.3 實驗三:長短期記憶網路與綜合比較 . . . . . . . . . . . . . . . . . . 37
5.4 實驗四:隨機森林之於時間序列異常分類 . . . . . . . . . . . . . . . 38
5.5 實驗五:長短期網絡之於時間序列異常分類 . . . . . . . . . . . . . . 42
6 結論與未來展望 45
6.1 結論 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
6.1.1 時間序列異常偵測 . . . . . . . . . . . . . . . . . . . . . . . . 46
6.1.2 時間序列異常分類 . . . . . . . . . . . . . . . . . . . . . . . . 46
6.2 未來展望 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
Bibliography 49
dc.language.isozh-TW
dc.title時間序列異常偵測和分類中的案例探討zh_TW
dc.titleCase Studies in Time Series Anomaly Detection and Classificationen
dc.typeThesis
dc.date.schoolyear108-2
dc.description.degree碩士
dc.contributor.oralexamcommittee陳永耀(Yung-Yaw Chen),張鴻嘉(Hung-Jia Jang)
dc.subject.keyword時間序列,時間序列預測,時間序列異常偵測,機器學習,zh_TW
dc.subject.keywordTime Series,Time Series Predict,Time Series Anomaly Detection,Machine Learning,en
dc.relation.page50
dc.identifier.doi10.6342/NTU202001769
dc.rights.note未授權
dc.date.accepted2020-07-24
dc.contributor.author-college電機資訊學院zh_TW
dc.contributor.author-dept資訊工程學研究所zh_TW
顯示於系所單位:資訊工程學系

文件中的檔案:
檔案 大小格式 
U0001-2307202012173000.pdf
  目前未授權公開取用
3.86 MBAdobe PDF
顯示文件簡單紀錄


系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。

社群連結
聯絡資訊
10617臺北市大安區羅斯福路四段1號
No.1 Sec.4, Roosevelt Rd., Taipei, Taiwan, R.O.C. 106
Tel: (02)33662353
Email: ntuetds@ntu.edu.tw
意見箱
相關連結
館藏目錄
國內圖書館整合查詢 MetaCat
臺大學術典藏 NTU Scholars
臺大圖書館數位典藏館
本站聲明
© NTU Library All Rights Reserved