Skip navigation

DSpace

機構典藏 DSpace 系統致力於保存各式數位資料(如:文字、圖片、PDF)並使其易於取用。

點此認識 DSpace
DSpace logo
English
中文
  • 瀏覽論文
    • 校院系所
    • 出版年
    • 作者
    • 標題
    • 關鍵字
    • 指導教授
  • 搜尋 TDR
  • 授權 Q&A
    • 我的頁面
    • 接受 E-mail 通知
    • 編輯個人資料
  1. NTU Theses and Dissertations Repository
  2. 管理學院
  3. 資訊管理學系
請用此 Handle URI 來引用此文件: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/97880
標題: 金融數值實體理解:任務、資料集與方法
Financial Numerical Entity Understanding: Novel Tasks, Datasets, and Approaches
作者: 李宜蓁
Yi-Jhen Li
指導教授: 盧信銘
Hsin-Min Lu
關鍵字: XBRL,iXBRL,財務資料集,屬性預測,多任務學習,
XBRL,iXBRL,Financial Dataset,Attribute Prediction,Multi-task Learning,
出版年 : 2025
學位: 碩士
摘要: 隨著 inline XBRL (iXBRL) 在財務報告中被廣泛與強制使用,能夠提升效率、一致性及法規遵循的自動化標記需求日益增加。人工標記不僅耗時費力,且容易出錯。然而,現有資料集在屬性涵蓋範圍及文本資訊上仍有不足,限制了模型效能及其在真實應用場景中的適用性。為解決上述問題,本研究從美國證券交易委員會(SEC)申報文件中建構出一套大規模 iXBRL 標記資料集,包含 660 萬筆句子。每筆資料包含多個屬性,如標籤名稱(tag name)、財務數值(fact value)、時間(time)等,並附有財務報表資訊及句子上下文資訊。本研究亦將標記任務重新定義為多屬性預測問題,以更真實地反映實際財務標記的複雜性。我們提出三階段任務設計,提升資料集在不同模型與應用場景中的靈活性與可用性。本研究比較兩種方法:基於 BERT 架構的多任務學習(multi-task learning, MTL)模型,以及大型語言模型(LLMs)進行的 few-shot 提示學習(prompting)。MTL 模型在多個屬性上展現優異的預測能力,於標籤、時間、數量級與正負屬性的加權 F1 分數分別達到 0.82、0.90 及 0.99。相較之下,few-shot LLMs 表現則相對較差。這一結果凸顯了大型語言模型和few-shot在財務領域的限制。此外,本研究所建資料集亦能協助發現過往申報文件中的標記不一致或潛在錯誤,展現其作為訓練資源與稽核工具的價值。從管理實務觀點而言,本研究提出的資料集與自動標記框架可大幅降低人工工作量,提升財務揭露的可靠性,並促進後續應用,例如對股東會資料、財報摘要,或在 XBRL 強制採用前發布之歷史財報的結構化分析。
The growing adoption of inline XBRL (iXBRL) in financial reporting has increased the need for automation to improve efficiency, consistency, and compliance. Manual tagging is often labor-intensive and error-prone, especially in corporate settings where financial filings must meet strict regulatory standards. While automated iXBRL tagging has shown promise, existing datasets lack comprehensive attribute coverage and contextual information, limiting model performance and real-world applicability. To address these limitations, this study constructs a large-scale iXBRL tagging dataset containing 6.6 million sentences from SEC filings. Each instance is annotated with multiple attributes, such as tag name, fact value, and time, as well as document metadata and surrounding sentence context. We reformulate the tagging task as a multi-attribute prediction problem, which better reflects the complexity of real-world financial reporting. A three-stage task design is proposed to improve the flexibility and usability of the dataset for various modeling approaches and applications. To establish performance baselines, we evaluate two methods: a multi-task learning (MTL) model based on a BERT architecture and few-shot prompting using large language models (LLMs). The MTL model demonstrates strong predictive capabilities across attributes, achieving weighted F1 scores of 0.82 for tag, 0.90 for time, and 0.99 for both scale and sign. By contrast, few-shot LLMs perform relatively worse. These findings reveal the current limitations of prompt-based approaches and highlight opportunities for future improvement through domain-adaptive pretraining and advanced prompting strategies. Additionally, the dataset helped uncover annotation inconsistencies and potential errors in previous filings, highlighting its value as both a training resource and an auditing aid. From a managerial perspective, the proposed dataset and automated tagging framework can significantly reduce human workload, enhance the reliability of financial disclosures, and enable downstream applications, such as financial analysis of shareholder meeting materials or financial reports published before the mandatory XBRL adoption.
URI: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/97880
DOI: 10.6342/NTU202501600
全文授權: 同意授權(全球公開)
電子全文公開日期: 2025-07-22
顯示於系所單位:資訊管理學系

文件中的檔案:
檔案 大小格式 
ntu-113-2.pdf3.81 MBAdobe PDF檢視/開啟
顯示文件完整紀錄


系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。

社群連結
聯絡資訊
10617臺北市大安區羅斯福路四段1號
No.1 Sec.4, Roosevelt Rd., Taipei, Taiwan, R.O.C. 106
Tel: (02)33662353
Email: ntuetds@ntu.edu.tw
意見箱
相關連結
館藏目錄
國內圖書館整合查詢 MetaCat
臺大學術典藏 NTU Scholars
臺大圖書館數位典藏館
本站聲明
© NTU Library All Rights Reserved