Skip navigation

DSpace JSPUI

DSpace preserves and enables easy and open access to all types of digital content including text, images, moving images, mpegs and data sets

Learn More
DSpace logo
English
中文
  • Browse
    • Communities
      & Collections
    • Publication Year
    • Author
    • Title
    • Subject
    • Advisor
  • Search TDR
  • Rights Q&A
    • My Page
    • Receive email
      updates
    • Edit Profile
  1. NTU Theses and Dissertations Repository
  2. 電機資訊學院
  3. 資訊工程學系
Please use this identifier to cite or link to this item: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/81673
Title: ND-MAPPO:具有噪音擾動的多智能體近似策略優化算法
ND-MAPPO: Noise Disturbance Multi-Agent Proximal Policy Optimization
Authors: Siyue Hu
胡思悅
Advisor: 廖世偉(Shih-wei Liao)
Keyword: 多智能體強化學習,集中訓練分散執行,噪音擾動,
Multi-Agent Reinforcement Learning,Centralized Training with Decentralized Execution,Noise Disturbance,
Publication Year : 2021
Degree: 碩士
Abstract: 近年來,許多廣為流行的多智能體強化學習(MARL)算法都採用了集中訓練與分散執行模(CTDE)。近期有部分學者嘗試將CTDE 架構直接套用在單智能體PPO 算法上,將其擴展為擁有集中式值函數的多智能體算法(MAPPO),並在《星際爭霸II》環境中進行測試,但實驗表明MAPPO 在《星際爭霸II》的許多任務下表現不佳。為了解決這個問題,我們設計了基於噪音的MAPPO(簡寫為ND-MAPPO),這個模型通過引入噪音機制,實現在集中的價值函數下給每個智能體分配不同的值,進而促進智能體的探索。實驗證明,我們所提的方法在《星際爭霸II》大部分場景皆遠超MAPPO,並在某些場景下同時超過最先進的CTDE算法QMIX。此外,我們首次從理論上證明PPO 通過集中值函數擴展為MAPPO是具備理論收斂性保證,並進一步分析值函數,從中獲得些有意思的見解。
URI: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/81673
DOI: 10.6342/NTU202101269
Fulltext Rights: 未授權
Appears in Collections:資訊工程學系

Files in This Item:
File SizeFormat 
U0001-0507202101384200.pdf
  Restricted Access
1.34 MBAdobe PDF
Show full item record


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

社群連結
聯絡資訊
10617臺北市大安區羅斯福路四段1號
No.1 Sec.4, Roosevelt Rd., Taipei, Taiwan, R.O.C. 106
Tel: (02)33662353
Email: ntuetds@ntu.edu.tw
意見箱
相關連結
館藏目錄
國內圖書館整合查詢 MetaCat
臺大學術典藏 NTU Scholars
臺大圖書館數位典藏館
本站聲明
© NTU Library All Rights Reserved