我尝试使用稳定基线训练具有MlpPolicy的PPO2。在10万个时间步之后,我只能得到1和-1。我将操作空间限制为[-1,1],并直接使用操作作为控制。我不知道是不是因为我直接用动作作为控制?
这可能是PPO2使用的gauß分布的结果。你可以使用一种不使用gauß的不同算法,或者在另一个分布中使用PPO。
请在此处查看示例:https://github.com/hill-a/stable-baselines/issues/112本文:https://www.ri.cmu.edu/wp-content/uploads/2017/06/thesis-Chou.pdf