如何在使用稳定基线3(PPO实现)的同时更改n_steps



我正在为我的自定义环境从稳定的基线3实现PPO。现在n_steps=2048,因此模型更新发生在2048个时间步长之后。如何更改此项,我希望我的模型在n_steps=1000之后更新?

尝试将其用作参数:

PPO(n_steps=1000)

相关内容

  • 没有找到相关文章

最新更新