Skip navigation

DSpace

機構典藏 DSpace 系統致力於保存各式數位資料(如:文字、圖片、PDF)並使其易於取用。

點此認識 DSpace
DSpace logo
English
中文
  • 瀏覽論文
    • 校院系所
    • 出版年
    • 作者
    • 標題
    • 關鍵字
    • 指導教授
  • 搜尋 TDR
  • 授權 Q&A
    • 我的頁面
    • 接受 E-mail 通知
    • 編輯個人資料
  1. NTU Theses and Dissertations Repository
  2. 電機資訊學院
  3. 資訊工程學系
請用此 Handle URI 來引用此文件: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/96517
標題: 透過多階段的資料增強與回饋機制來優化大型語言模型的推理與可用性
Enhancing Large Language Models Across Training Stages via Synthetic Data and Iterative Feedback
作者: 林彥廷
Yen-ting Lin
指導教授: 陳縕儂
Yun-Nung Chen
關鍵字: 大型語言模型,合成資料,推理,語言模型對齊,多語言語言模型,
Large Language Models,Synthetic Data,Reasoning,Alignment,Multilingual,
出版年 : 2025
學位: 博士
摘要: 大型語言模型在各種任務中展現出卓越的能力,但其效能與可用性仍可透過精細優化進一步提升。本論文專注於大型語言模型訓練流程中的兩個關鍵階段:預訓練與後訓練。在預訓練階段,我們提出特定領域的資料整理與模型開發策略,以打造適用於特定語言與情境的大型語言模型,例如針對繁體中文的資料處理與評測方法及 Taiwan-LLM 模型。在後訓練階段,我們透過合成資料生成、偏好最佳化與迭代回饋來提升模型的能力,包括用於意圖識別的資料增強、用於自動評測與對齊的 LLM-Eval,以及用於逐步偏好最佳化的 Step-KTO。實驗結果顯示,合成資料增強可提升大型語言模型在低資源環境下的穩健性,而迭代回饋與精心設計的獎勵信號則能改善推理能力與輸出品質。本研究展示了一套完整的多階段強化框架,從預訓練到後訓練,以打造更符合語言、文化及實際應用需求的 LLM。
Large Language Models (LLMs) have demonstrated remarkable capabilities, but their performance, alignment, and trustworthiness can still be significantly improved through fine-grained optimization across multiple training stages. This thesis focuses on enhancing LLMs in two key stages: pre-training and post-training. In pre-training, we introduce domain-specific data curation and model development strategies to produce LLMs tailored for specific languages and contexts, such as Traditional Mandarin processing and benchmarking (e.g., the Taiwanese Mandarin Language Understanding benchmark and Taiwan-LLM). In post-training, we refine models using synthetic data generation, preference optimization, and iterative feedback, including methods like In-Context Data Augmentation for intent detection, LLM-Eval for automatic evaluation, and Step-KTO for stepwise preference optimization. Experimental results show that synthetic data augmentation enhances robustness in low-resource settings, while iterative feedback and well-designed reward signals improve reasoning and output quality. This framework demonstrates how multi-stage enhancements can create LLMs that are linguistically, culturally, and pragmatically aligned with user needs.
URI: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/96517
DOI: 10.6342/NTU202500160
全文授權: 未授權
電子全文公開日期: N/A
顯示於系所單位:資訊工程學系

文件中的檔案:
檔案 大小格式 
ntu-113-1.pdf
  未授權公開取用
16.16 MBAdobe PDF
顯示文件完整紀錄


系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。

社群連結
聯絡資訊
10617臺北市大安區羅斯福路四段1號
No.1 Sec.4, Roosevelt Rd., Taipei, Taiwan, R.O.C. 106
Tel: (02)33662353
Email: ntuetds@ntu.edu.tw
意見箱
相關連結
館藏目錄
國內圖書館整合查詢 MetaCat
臺大學術典藏 NTU Scholars
臺大圖書館數位典藏館
本站聲明
© NTU Library All Rights Reserved