是否有任何符合OpenAI Gym的接口实现用于连续动作空间? 如果是,它是否支持多代理环境? 我正在研究多代理 DDPG 实施,但找不到合适的基线环境。
健身房中的多代理 RL
OpenAI Gym 没有为多代理 RL 环境提供很好的界面,但是,通过具有
env.step(action_n: List) -> observation_n: List
获取与每个代理对应的操作列表,并输出一个观察列表,每个代理一个。
如果要重新实现 MADDPG,还可以使用 Ryan Lowe 本人提供的多代理粒子环境的实现。
当然,重新实现环境不会有什么坏处。
连续动作空间
在多智能体粒子环境的链接实现中,您可以通过将此行代码更改为 False 来将操作空间的类型从离散更改为连续。
但是,以前尝试过这个,我可以告诉你,这将导致 MADDPG 的性能变差。