正如标题所说,我使用SB3在Cartpole环境中测试PPO,但如果我查看evaluate_policy函数所测量的性能,我在20000个时间步内获得了475个可靠的平均奖励,但如果我查看控制台日志以在学习期间获得可比较的结果,我需要大约90000个时间步。
为什么我的模型使用评估助手执行得更好?
在这两种情况下我都使用了相同的超参数,并且我使用了一个新的环境来使用helper方法进行求值。
我想我已经解决了这个"问题"。Evaluate_policy在默认设置中使用确定性操作,这会更快地产生更好的结果。