连续状态空间和离散动作空间的最佳强化学习算法



我有一个具有连续状态空间和离散操作空间的环境(两个操作类似于0或1(。对于这种情况,最好的RL算法是什么?

好吧,这取决于奖励结构;状态和动作空间本身并不能定义问题的容易程度,也不能说明一个好的算法。我会先试试DQN。如果它不起作用,我会尝试A2CA3C。如果它们也不起作用,我会尝试PPO

如果它们都不起作用,则需要提供更多有关环境的信息。也许它需要一种特殊的探索技术。

您可以在Ray文档中找到它们的高级描述。相应论文及其代码的链接可在链接上找到。

最新更新