如何在稳定基线(状态-动作对)上评价sac agent的q值网络?



我在稳定的基线中实现SAC代理,需要在我的自定义环境中评估q值网络。我试图从SAC类对象中获得q值,但失败了。任何带有PPO (.value)的方法或函数都会非常有用。

我们不评估价值函数,我们评估策略。

相关内容

  • 没有找到相关文章

最新更新