Skip navigation

DSpace

機構典藏 DSpace 系統致力於保存各式數位資料(如:文字、圖片、PDF)並使其易於取用。

點此認識 DSpace
DSpace logo
English
中文
  • 瀏覽論文
    • 校院系所
    • 出版年
    • 作者
    • 標題
    • 關鍵字
    • 指導教授
  • 搜尋 TDR
  • 授權 Q&A
    • 我的頁面
    • 接受 E-mail 通知
    • 編輯個人資料
  1. NTU Theses and Dissertations Repository
  2. 電機資訊學院
  3. 資訊工程學系
請用此 Handle URI 來引用此文件: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/98578
標題: 拆解上下文學習:透過函數混合式訓練探討其內在機制與分布外泛化能力
Unpacking In-Context Learning: Underlying Mechanism and Out-of-Distribution Generalization via Blended Training on Function Mixture
作者: 黃竑鈞
Hung-Chun Huang
指導教授: 林守德
Shou-De Lin
關鍵字: 上下文學習,混合訓練,函數混合,函數選擇,分布外泛化,
In-Context Learning,Blended Training,Function Mixture,Function Selection,OOD Generalization,
出版年 : 2025
學位: 碩士
摘要: 當代基於 Transformer 的語言模型在各類真實任務中展現出卓越的表現,但其內部運作機制仍未被完全理解。近期研究逐漸聚焦於「上下文學習」(in-context learning, ICL)現象,以及模型超越訓練分布進行泛化的能力。然而,多數研究是在簡化條件下進行的,訓練與評估皆以單一、明確定義的函數生成提示(Prompt),這使得模型在結構更為多樣或模糊的情境下的表現仍不明朗。

本研究探討 ICL 透過「混合訓練」(Blended Training)後的行為,其中每個訓練提示由多個不同類型函數隨機抽樣產生,且不提供任何明確的任務標記或結構線索。我們以標準的 ICL 任務(如線性分類或二次分類... 等)為基礎,透過自行設計的實驗來驗證假說,並評估此訓練方式對模型行為、抗噪性與泛化能力的影響。

實驗結果顯示,在混合訓練情境下,模型並不是用單一函數為主軸進行函數選擇,而是展現出更具彈性的模式識別能力、對輸入雜訊的更強韌容忍度,以及更佳的異常情境泛化能力。這些發現指出,訓練中引入結構多樣性的提示,有助於提升模型在未知環境下的適應性。
Transformer-based language models have achieved remarkable success across a wide range of real-world tasks, yet the internal mechanisms that govern their behavior remain only partially understood. Recent research has increasingly focused on the phenomenon of in-context learning (ICL) and its ability to generalize beyond the training distribution. However, many of these studies are conducted under simplified conditions, where both training and evaluation use prompts derived from a single, clearly defined function. As a result, it remains unclear how models behave in more structurally diverse or ambiguous settings.

In this study, we examine ICL under a blended training paradigm, in which each training prompt contains examples sampled from multiple function classes, without any explicit task identifiers or structural signals. Using standard ICL benchmarks such as linear and quadratic classification, we assess how this training approach influences model behavior, robustness, and generalization.

Our findings indicate that under blended training, the commonly observed function selection behavior, where the model implicitly identifies and applies a single underlying function, plays a less central role. Instead, the model demonstrates more flexible pattern recognition, improved resilience to input noise, and stronger generalization to out-of-distribution tasks. These results suggest that training on structurally mixed prompts can enhance a model’s adaptability in unfamiliar scenarios.
URI: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/98578
DOI: 10.6342/NTU202503867
全文授權: 同意授權(全球公開)
電子全文公開日期: 2025-08-18
顯示於系所單位:資訊工程學系

文件中的檔案:
檔案 大小格式 
ntu-113-2.pdf2.19 MBAdobe PDF檢視/開啟
顯示文件完整紀錄


系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。

社群連結
聯絡資訊
10617臺北市大安區羅斯福路四段1號
No.1 Sec.4, Roosevelt Rd., Taipei, Taiwan, R.O.C. 106
Tel: (02)33662353
Email: ntuetds@ntu.edu.tw
意見箱
相關連結
館藏目錄
國內圖書館整合查詢 MetaCat
臺大學術典藏 NTU Scholars
臺大圖書館數位典藏館
本站聲明
© NTU Library All Rights Reserved