小贝子编程

Evaluate_policy记录的平均奖励比稳定基线3记录器高得多

本文关键字：基线高得多记录器 policy 记录 Evaluate reinforcement-learning stable-baselines
更新时间 : 2023-09-23
英文 : Evaluate_policy records much higher mean reward then stable baselines 3 logger

正如标题所说，我使用SB3在Cartpole环境中测试PPO，但如果我查看evaluate_policy函数所测量的性能，我在20000个时间步内获得了475个可靠的平均奖励，但如果我查看控制台日志以在学习期间获得可比较的结果，我需要大约90000个时间步。

为什么我的模型使用评估助手执行得更好?

在这两种情况下我都使用了相同的超参数，并且我使用了一个新的环境来使用helper方法进行求值。

我想我已经解决了这个"问题"。Evaluate_policy在默认设置中使用确定性操作，这会更快地产生更好的结果。

最新更新

如何在MySql中返回不同的列而不是标准列?查询
Listener Facebook Login in Supabase Flutter
Javascript添加类到多个元素，除了一个
在windows上使用R导入xkcd字体(适用于xkcd包)
如何在用户输入不正确的值后使python循环程序?
<picture> 元素在媒体查询/属性之间闪烁到 100% 宽度
Django模板-使用字符串从表单中呈现一个字段
didReadRSSI事件在声明后台模式进入后台时停止工作
Twilio SMS (Java)执行失败
如何使用相同的算法创建两个SSH密钥?
c -指针到数组，malloc和越界访问
遍历JavaScript数组不能产生正确的结果
RegEx在SAP 7.5中以字符的第一次出现开始并结束
使用MS Graph Rest APi上传文件到Documentset
忽略正则表达式搜索中的模式错误，不要使搜索崩溃
在一个帐户上有多个Youtube频道.如何将提供的API密钥限制为仅1个通道?
如何根据输入列表中的项数更改URL ?
scipy. integrated .quad给出ValueError:给出无效的可调用对象
将Pandas Datetime转换为Postgres Date
不能在caporal中使用prog模块
使用Powershell打开特定的Outlook配置文件
如何在WrapPanel中获得元素的坐标?
如何检查webpack.config.js中的监视模式?
如何创建动态正则表达式生成器?
ActorReferences作为Akka中其他角色的成员变量
我不知道有什么区别
文字SQL工作：数组值必须以"{"或维度信息开头
Go-使函数与外观相似的结构切片一起工作的惯用方法
在一个弹出窗口中管理多个输入的焦点
r语言 - 进行单向方差分析

Evaluate_policy记录的平均奖励比稳定基线3记录器高得多

相关内容

最新更新

热门标签：