Skip navigation

DSpace JSPUI

DSpace preserves and enables easy and open access to all types of digital content including text, images, moving images, mpegs and data sets

Learn More
DSpace logo
English
中文
  • Browse
    • Communities
      & Collections
    • Publication Year
    • Author
    • Title
    • Subject
    • Advisor
  • Search TDR
  • Rights Q&A
    • My Page
    • Receive email
      updates
    • Edit Profile
  1. NTU Theses and Dissertations Repository
  2. 電機資訊學院
  3. 資訊網路與多媒體研究所
Please use this identifier to cite or link to this item: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/80378
Title: 再思考多智能體合作強化學習中的單調性約束
RMC: Rethinking the Monotonicity Constraint in Cooperative Multi-Agent Reinforcement Learning
Authors: JIAN HU
胡健
Advisor: 廖世偉(Shih-wei Liao)
Keyword: 多智能體強化學習,單調性約束,超參數,
Multi-agent Reinforcement Learning,Monotonicity Constraint,Hyperparameters,
Publication Year : 2021
Degree: 碩士
Abstract: 許多複雜的多智能體系統,如機器人群控制和自主車輛協調,可以被建模為多代理強化學習(MARL)任務。QMIX是一種流行的基於單調性約束的MARL算法,已被用作基準環境的基線,如星際爭霸多Agent挑戰賽(SMAC)、捕食者-獵物(PP)。最近的QMIX變體以放松QMIX的單調性約束為目標,以提高QMIX的表達能力,使其在SMAC的性能得到改善。然而,我們發現,這些變體的性能改進受到各種實現技巧的顯著影響。在本文中,我們重新審視了QMIX的單調性約束。(1)我們設計了一個新穎的模型RMC來進一步研究單調性約束;結果表明,單調性約束可以提高一些純合作任務的採樣效率;(2)然後我們通過網格超參數搜索技巧來重新評估QMIX和這些變體的性能;結果表明QMIX在它們中取得了最佳性能;(3) 我們從理論角度分析了單調性混合網絡,並表明它可以代表任何純合作任務。這些分析表明,放鬆值分解網絡的單調性約束並不總是能提高QMIX的性能,這打破了我們以前對單調性約束的印象。
URI: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/80378
DOI: 10.6342/NTU202100939
Fulltext Rights: 同意授權(限校園內公開)
Appears in Collections:資訊網路與多媒體研究所

Files in This Item:
File SizeFormat 
U0001-3105202117103200.pdf
Access limited in NTU ip range
1.01 MBAdobe PDF
Show full item record


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

社群連結
聯絡資訊
10617臺北市大安區羅斯福路四段1號
No.1 Sec.4, Roosevelt Rd., Taipei, Taiwan, R.O.C. 106
Tel: (02)33662353
Email: ntuetds@ntu.edu.tw
意見箱
相關連結
館藏目錄
國內圖書館整合查詢 MetaCat
臺大學術典藏 NTU Scholars
臺大圖書館數位典藏館
本站聲明
© NTU Library All Rights Reserved