Skip navigation

DSpace

機構典藏 DSpace 系統致力於保存各式數位資料(如:文字、圖片、PDF)並使其易於取用。

點此認識 DSpace
DSpace logo
English
中文
  • 瀏覽論文
    • 校院系所
    • 出版年
    • 作者
    • 標題
    • 關鍵字
    • 指導教授
  • 搜尋 TDR
  • 授權 Q&A
    • 我的頁面
    • 接受 E-mail 通知
    • 編輯個人資料
  1. NTU Theses and Dissertations Repository
  2. 電機資訊學院
  3. 資訊網路與多媒體研究所
請用此 Handle URI 來引用此文件: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/80378
標題: 再思考多智能體合作強化學習中的單調性約束
RMC: Rethinking the Monotonicity Constraint in Cooperative Multi-Agent Reinforcement Learning
作者: JIAN HU
胡健
指導教授: 廖世偉(Shih-wei Liao)
關鍵字: 多智能體強化學習,單調性約束,超參數,
Multi-agent Reinforcement Learning,Monotonicity Constraint,Hyperparameters,
出版年 : 2021
學位: 碩士
摘要: 許多複雜的多智能體系統,如機器人群控制和自主車輛協調,可以被建模為多代理強化學習(MARL)任務。QMIX是一種流行的基於單調性約束的MARL算法,已被用作基準環境的基線,如星際爭霸多Agent挑戰賽(SMAC)、捕食者-獵物(PP)。最近的QMIX變體以放松QMIX的單調性約束為目標,以提高QMIX的表達能力,使其在SMAC的性能得到改善。然而,我們發現,這些變體的性能改進受到各種實現技巧的顯著影響。在本文中,我們重新審視了QMIX的單調性約束。(1)我們設計了一個新穎的模型RMC來進一步研究單調性約束;結果表明,單調性約束可以提高一些純合作任務的採樣效率;(2)然後我們通過網格超參數搜索技巧來重新評估QMIX和這些變體的性能;結果表明QMIX在它們中取得了最佳性能;(3) 我們從理論角度分析了單調性混合網絡,並表明它可以代表任何純合作任務。這些分析表明,放鬆值分解網絡的單調性約束並不總是能提高QMIX的性能,這打破了我們以前對單調性約束的印象。
URI: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/80378
DOI: 10.6342/NTU202100939
全文授權: 同意授權(限校園內公開)
顯示於系所單位:資訊網路與多媒體研究所

文件中的檔案:
檔案 大小格式 
U0001-3105202117103200.pdf
授權僅限NTU校內IP使用(校園外請利用VPN校外連線服務)
1.01 MBAdobe PDF
顯示文件完整紀錄


系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。

社群連結
聯絡資訊
10617臺北市大安區羅斯福路四段1號
No.1 Sec.4, Roosevelt Rd., Taipei, Taiwan, R.O.C. 106
Tel: (02)33662353
Email: ntuetds@ntu.edu.tw
意見箱
相關連結
館藏目錄
國內圖書館整合查詢 MetaCat
臺大學術典藏 NTU Scholars
臺大圖書館數位典藏館
本站聲明
© NTU Library All Rights Reserved