小贝子编程

连续状态空间和离散动作空间的最佳强化学习算法

本文关键字：最佳化学算法学习空间状态空间连续 reinforcement-learning
更新时间 : 2023-09-15
英文 : Best reinforcement learning algorithm for continuous state space and discrete action space

我有一个具有连续状态空间和离散操作空间的环境(两个操作类似于0或1(。对于这种情况，最好的RL算法是什么？

好吧，这取决于奖励结构；状态和动作空间本身并不能定义问题的容易程度，也不能说明一个好的算法。我会先试试DQN。如果它不起作用，我会尝试A2C或A3C。如果它们也不起作用，我会尝试PPO。

如果它们都不起作用，则需要提供更多有关环境的信息。也许它需要一种特殊的探索技术。

您可以在Ray文档中找到它们的高级描述。相应论文及其代码的链接可在链接上找到。

最新更新

r语言 - 如何导入和绑定多个带有多个选项卡的Excel(名称常见)
Jetpack Compose与Paging 3产生太多的网络请求
当我们设置git reset -soft时，历史记录会发生什么?
我们可以调用firebase作为服务器吗?
发送Post请求时出现启动错误，收到不支持的媒体类型415错误
JPA继承问题与ObjectDB -字段未发现类型错误
插件部分中的依赖树
简单的GUI应用程序
woocommerce在结帐页面上自动登录，只需使用billing_email
X509Certificate2.Verify()运行错误，但证书正在工作
BinanceAPIExceptionError: APIError(code=-2015): Invalid API-
Python Scrapy代码从网站提取第一封电子邮件
我试图使用Plotly在python中创建一个地图图，但我的数据没有被导入或不能正常工作
JPA储存库.save在Netty服务器channelInitializer处理程序不工作
通常在kafka模式注册表中注册动态protobuf模式
如何使用窗口提示符作为货币反应
如何获得光标位置悬停在GTK-rs绘图区域?
Angular 12的数据绑定问题
使用Scapy和无线网卡扫描网络-网络不通错误
Amplify GraphQL DataStore : auth rules: groupsField being ig
Svelte自定义元素更新不工作
我的prinln方法没有输出我想要的相同输出
azure function poppler utils
r语言 - 取对角矩阵的幂
multiplication Table in dart
如何捕获从装饰器抛出"FilesInterceptor"错误
错误:fatal:不是git存储库(或任何父目录):.git云源存储库
创建一个Python字典，以开始值和结束值作为键
根据列唯一值对组执行多元线性回归
如何在VS Code中添加扩展的Git提交消息

连续状态空间和离散动作空间的最佳强化学习算法

相关内容

最新更新

热门标签：