請用此 Handle URI 來引用此文件:
http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/81673| 標題: | ND-MAPPO:具有噪音擾動的多智能體近似策略優化算法 ND-MAPPO: Noise Disturbance Multi-Agent Proximal Policy Optimization |
| 作者: | Siyue Hu 胡思悅 |
| 指導教授: | 廖世偉(Shih-wei Liao) |
| 關鍵字: | 多智能體強化學習,集中訓練分散執行,噪音擾動, Multi-Agent Reinforcement Learning,Centralized Training with Decentralized Execution,Noise Disturbance, |
| 出版年 : | 2021 |
| 學位: | 碩士 |
| 摘要: | 近年來,許多廣為流行的多智能體強化學習(MARL)算法都採用了集中訓練與分散執行模(CTDE)。近期有部分學者嘗試將CTDE 架構直接套用在單智能體PPO 算法上,將其擴展為擁有集中式值函數的多智能體算法(MAPPO),並在《星際爭霸II》環境中進行測試,但實驗表明MAPPO 在《星際爭霸II》的許多任務下表現不佳。為了解決這個問題,我們設計了基於噪音的MAPPO(簡寫為ND-MAPPO),這個模型通過引入噪音機制,實現在集中的價值函數下給每個智能體分配不同的值,進而促進智能體的探索。實驗證明,我們所提的方法在《星際爭霸II》大部分場景皆遠超MAPPO,並在某些場景下同時超過最先進的CTDE算法QMIX。此外,我們首次從理論上證明PPO 通過集中值函數擴展為MAPPO是具備理論收斂性保證,並進一步分析值函數,從中獲得些有意思的見解。 |
| URI: | http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/81673 |
| DOI: | 10.6342/NTU202101269 |
| 全文授權: | 未授權 |
| 顯示於系所單位: | 資訊工程學系 |
文件中的檔案:
| 檔案 | 大小 | 格式 | |
|---|---|---|---|
| U0001-0507202101384200.pdf 未授權公開取用 | 1.34 MB | Adobe PDF |
系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。
