小贝子编程

MlpPolicy只返回1和-1，操作规范为[-1,1]

本文关键字：操作 MlpPolicy 返回 reinforcement-learning openai-gym policy-gradient-descent stable-baselines
更新时间 : 2023-09-20
英文 : MlpPolicy only return 1 and -1 with action spece[-1,1]

我尝试使用稳定基线训练具有MlpPolicy的PPO2。在10万个时间步之后，我只能得到1和-1。我将操作空间限制为[-1，1]，并直接使用操作作为控制。我不知道是不是因为我直接用动作作为控制？

这可能是PPO2使用的gauß分布的结果。你可以使用一种不使用gauß的不同算法，或者在另一个分布中使用PPO。

请在此处查看示例：https://github.com/hill-a/stable-baselines/issues/112本文：https://www.ri.cmu.edu/wp-content/uploads/2017/06/thesis-Chou.pdf

最新更新

写入10位/色(位深)alpha通道图像的问题
在powerbuilder文本框中打印整个数组
根据多个属性对对象列表进行排序，用户选择优先考虑哪些属性
是否有办法发送音频字节到语音识别器
如果python中没有regex的特定单词的空格，如何在前面或后面添加空格
模块'networkx'没有属性'read_gpickle'
在angular中如何从HTTP重定向到HTTPS
类型错误：成员"length"是只读的，不能用于调整数组大小
ReferenceError: AbortController在fetchCSSFromGoogleFonts没有定义.
Woocommerce在结账后根据产品自定义字段进行重定向
Yocto:获取变量(值)的调试信息
typescript如何检查函数的特定类型
错误： "The kernel appears to have died. It will restart automatically."
如何将AVFrame转换为PNG图像
是否有任何方法来创建更新历史使用Firestore?
从分类变量创建新列
通过职位从"GAL (Global Address List) outlook"提前查找中获取电子邮件地址
我如何让我的改造等到它完成之前，我开始我的回收视图
c# -使用正则表达式验证电话号码
如何转换WordPress标签每个单词的第一个大写字母
MYSQL:根据其他查询的结果显示数据.想要合并查询
实现了一个设置序列化为XML的消息抑制系统
使用JIRA API调用从JIRA获取数据
shell会优化一系列通过管道链接的调用吗?
Flutter Firebase认证-如果用户已登录，则更改home小部件
不同的NavLink活动相同的链接，但多个查询参数Id
使用类型缺少属性的React TS错误
链表如何到达第二个节点
无法在 ubuntu 中加载动态库'libcudnn.so.8'
在python中添加一个计数器，每写一次name，它就增加1

MlpPolicy只返回1和-1，操作规范为[-1,1]

相关内容

最新更新

热门标签：