以自然語言處理方法分析年度報表中的管理層討論與分析的修改

Yu-Hsuan Chuang; 莊于萱

請用此 Handle URI 來引用此文件： http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/81609

標題:	以自然語言處理方法分析年度報表中的管理層討論與分析的修改 A Novel Natural Language Processing Framework for Analyzing Management's Discussion and Analysis Modifications in 10-K Reports
作者:	Yu-Hsuan Chuang 莊于萱
指導教授:	盧信銘(Hsin-Min Lu)
關鍵字:	10-K報表,管理層討論與分析,管理層討論與分析的修改,自然語言處理,CRF,Bi-LSTM,BERT, 10-K Reports,MD A,MD A Modifications,Natural Language Processing,CRF,Bi-LSTM,BERT,
出版年 :	2021
學位:	碩士
摘要:	"目的：管理層討論與分析（MD A）是10-K年度報表中重要的項目之一，而每年MD A文字內容的修改，被用在許多研究上，包含評估公司的表現，股價預測等。然而，MD A 修改的前處理步驟，包含從10-K報表中擷取MD A，以及從擷取出的MD A中移除不想要的文字，仍然使用一些傳統的文字分析方法，而對MD A 修改的分析造成負面影響。除此之外，MD A 修改的呈現，無法完整考量文字語意，且經常以數值形式呈現，鮮少呈現實際上MD A修改的內容。方法：本研究運用建立一個自然語言處理框架（EPSC）去分析MD A 的修改，包含項目擷取（Item Extraction）、項目修飾（Item Prettification）、基於文字語意的句子層級文件比較（SDDSC），以及運用分群方法（Clustering）探索MD A修改的傾向。我們的EPSC能解決先前研究在項目擷取、項目修飾和MD A修改呈現上的研究限制，並運用進階的自然語言處理技術，改善MD A修改的分析。我們的EPSC包含四個步驟，第一步是使用條件隨機場（Conditional Random Field, CRF）做10-K年度報表的項目擷取，第二步是用雙向長短期記憶模型（Bi-directional Long Short-Term Memory, Bi-LSTM）做10-K年度報表的項目修飾，第三步使用我們所設計的基於文字語意的句子層級文件比較的演算法（SDDSC），呈現每年詳細的MD A修改，而第四步使用K-平均演算法（K-Means Clustering）識別產業中MD A修改的傾向。結果：我們的實驗結果顯示出，使用Bi-LSTM做項目修飾的表現比其他模型還要好。我們設計的SDDSC能夠基於不同的文字語意相似度之閥值，呈現詳細的MD A修改的資訊。除此之外，使用K-平均演算法能成功的識別產業內的MD A修改的傾向，並以離群中心相似度最高的前五個句子呈現此傾向。結論：本研究採用進階的自然語言處理技術，改善MD A修改的分析。此外，我們的EPSC可以提供更詳細的MD A文字內容修改的內容，提供研究者和投資者有價值的資訊。未來，我們希望能增加項目擷取的人工標註資料以提升模型的表現，也希望將我們的SDDSC修改成非遞迴演算法，解決遞迴演算法的深度限制，並提升演算法的執行效率。"
URI:	http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/81609
DOI:	10.6342/NTU202102680
全文授權:	未授權
電子全文公開日期:	2022-10-23
顯示於系所單位：	資訊管理學系

文件中的檔案：

檔案	大小	格式
U0001-2408202115393500.pdf 未授權公開取用	2.12 MB	Adobe PDF

顯示文件完整紀錄

系統中的文件，除了特別指名其著作權條款之外，均受到著作權保護，並且保留所有的權利。

DSpace

機構典藏 DSpace 系統致力於保存各式數位資料（如：文字、圖片、PDF）並使其易於取用。