Skip navigation

DSpace

機構典藏 DSpace 系統致力於保存各式數位資料(如:文字、圖片、PDF)並使其易於取用。

點此認識 DSpace
DSpace logo
English
中文
  • 瀏覽論文
    • 校院系所
    • 出版年
    • 作者
    • 標題
    • 關鍵字
    • 指導教授
  • 搜尋 TDR
  • 授權 Q&A
    • 我的頁面
    • 接受 E-mail 通知
    • 編輯個人資料
  1. NTU Theses and Dissertations Repository
  2. 電機資訊學院
  3. 資訊工程學系
請用此 Handle URI 來引用此文件: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/81673
標題: ND-MAPPO:具有噪音擾動的多智能體近似策略優化算法
ND-MAPPO: Noise Disturbance Multi-Agent Proximal Policy Optimization
作者: Siyue Hu
胡思悅
指導教授: 廖世偉(Shih-wei Liao)
關鍵字: 多智能體強化學習,集中訓練分散執行,噪音擾動,
Multi-Agent Reinforcement Learning,Centralized Training with Decentralized Execution,Noise Disturbance,
出版年 : 2021
學位: 碩士
摘要: 近年來,許多廣為流行的多智能體強化學習(MARL)算法都採用了集中訓練與分散執行模(CTDE)。近期有部分學者嘗試將CTDE 架構直接套用在單智能體PPO 算法上,將其擴展為擁有集中式值函數的多智能體算法(MAPPO),並在《星際爭霸II》環境中進行測試,但實驗表明MAPPO 在《星際爭霸II》的許多任務下表現不佳。為了解決這個問題,我們設計了基於噪音的MAPPO(簡寫為ND-MAPPO),這個模型通過引入噪音機制,實現在集中的價值函數下給每個智能體分配不同的值,進而促進智能體的探索。實驗證明,我們所提的方法在《星際爭霸II》大部分場景皆遠超MAPPO,並在某些場景下同時超過最先進的CTDE算法QMIX。此外,我們首次從理論上證明PPO 通過集中值函數擴展為MAPPO是具備理論收斂性保證,並進一步分析值函數,從中獲得些有意思的見解。
URI: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/81673
DOI: 10.6342/NTU202101269
全文授權: 未授權
顯示於系所單位:資訊工程學系

文件中的檔案:
檔案 大小格式 
U0001-0507202101384200.pdf
  未授權公開取用
1.34 MBAdobe PDF
顯示文件完整紀錄


系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。

社群連結
聯絡資訊
10617臺北市大安區羅斯福路四段1號
No.1 Sec.4, Roosevelt Rd., Taipei, Taiwan, R.O.C. 106
Tel: (02)33662353
Email: ntuetds@ntu.edu.tw
意見箱
相關連結
館藏目錄
國內圖書館整合查詢 MetaCat
臺大學術典藏 NTU Scholars
臺大圖書館數位典藏館
本站聲明
© NTU Library All Rights Reserved