再思考多智能體合作強化學習中的單調性約束

JIAN HU; 胡健

Please use this identifier to cite or link to this item: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/80378

Title:	再思考多智能體合作強化學習中的單調性約束 RMC: Rethinking the Monotonicity Constraint in Cooperative Multi-Agent Reinforcement Learning
Authors:	JIAN HU 胡健
Advisor:	廖世偉(Shih-wei Liao)
Keyword:	多智能體強化學習,單調性約束,超參數, Multi-agent Reinforcement Learning,Monotonicity Constraint,Hyperparameters,
Publication Year :	2021
Degree:	碩士
Abstract:	許多複雜的多智能體系統，如機器人群控制和自主車輛協調，可以被建模為多代理強化學習（MARL）任務。QMIX是一種流行的基於單調性約束的MARL算法，已被用作基準環境的基線，如星際爭霸多Agent挑戰賽（SMAC）、捕食者-獵物（PP）。最近的QMIX變體以放松QMIX的單調性約束為目標，以提高QMIX的表達能力，使其在SMAC的性能得到改善。然而，我們發現，這些變體的性能改進受到各種實現技巧的顯著影響。在本文中，我們重新審視了QMIX的單調性約束。（1）我們設計了一個新穎的模型RMC來進一步研究單調性約束；結果表明，單調性約束可以提高一些純合作任務的採樣效率；（2）然後我們通過網格超參數搜索技巧來重新評估QMIX和這些變體的性能；結果表明QMIX在它們中取得了最佳性能；(3) 我們從理論角度分析了單調性混合網絡，並表明它可以代表任何純合作任務。這些分析表明，放鬆值分解網絡的單調性約束並不總是能提高QMIX的性能，這打破了我們以前對單調性約束的印象。
URI:	http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/80378
DOI:	10.6342/NTU202100939
Fulltext Rights:	同意授權(限校園內公開)
Appears in Collections:	資訊網路與多媒體研究所

Files in This Item:

File	Size	Format
U0001-3105202117103200.pdf Access limited in NTU ip range	1.01 MB	Adobe PDF

Show full item record

DSpace JSPUI

DSpace preserves and enables easy and open access to all types of digital content including text, images, moving images, mpegs and data sets