Please use this identifier to cite or link to this item:
http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/80378| Title: | 再思考多智能體合作強化學習中的單調性約束 RMC: Rethinking the Monotonicity Constraint in Cooperative Multi-Agent Reinforcement Learning |
| Authors: | JIAN HU 胡健 |
| Advisor: | 廖世偉(Shih-wei Liao) |
| Keyword: | 多智能體強化學習,單調性約束,超參數, Multi-agent Reinforcement Learning,Monotonicity Constraint,Hyperparameters, |
| Publication Year : | 2021 |
| Degree: | 碩士 |
| Abstract: | 許多複雜的多智能體系統,如機器人群控制和自主車輛協調,可以被建模為多代理強化學習(MARL)任務。QMIX是一種流行的基於單調性約束的MARL算法,已被用作基準環境的基線,如星際爭霸多Agent挑戰賽(SMAC)、捕食者-獵物(PP)。最近的QMIX變體以放松QMIX的單調性約束為目標,以提高QMIX的表達能力,使其在SMAC的性能得到改善。然而,我們發現,這些變體的性能改進受到各種實現技巧的顯著影響。在本文中,我們重新審視了QMIX的單調性約束。(1)我們設計了一個新穎的模型RMC來進一步研究單調性約束;結果表明,單調性約束可以提高一些純合作任務的採樣效率;(2)然後我們通過網格超參數搜索技巧來重新評估QMIX和這些變體的性能;結果表明QMIX在它們中取得了最佳性能;(3) 我們從理論角度分析了單調性混合網絡,並表明它可以代表任何純合作任務。這些分析表明,放鬆值分解網絡的單調性約束並不總是能提高QMIX的性能,這打破了我們以前對單調性約束的印象。 |
| URI: | http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/80378 |
| DOI: | 10.6342/NTU202100939 |
| Fulltext Rights: | 同意授權(限校園內公開) |
| Appears in Collections: | 資訊網路與多媒體研究所 |
Files in This Item:
| File | Size | Format | |
|---|---|---|---|
| U0001-3105202117103200.pdf Access limited in NTU ip range | 1.01 MB | Adobe PDF |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.
