哪种增强学习算法适用于具有连续可变奖励和没有中间奖励的问题

我认为标题是这样说的。"游戏"需要多个动作才能完成，此时计算了总分。目标是最大化这个分数，并且在游戏过程中没有为特定举动提供的奖励。是否有针对此类问题的现有算法？

编辑：通过"连续变量"的奖励，我的意思是它是浮点数，而不是双赢二进制的奖励。因此，例如，您不能通过加强到达那里的动作来回应"获胜"。您只有一个数字。您可以按偏好顺序对不同的运行进行排名，但是单个结果并不是特别有意义。

首先，我认为，当您谈论"连续变量奖励"时，您的问题的标题似乎有些混乱。也许您可以澄清这一方面。

另一方面，在没有考虑到上面的情况下，您看上去您正在谈论时间信用求和问题：您如何分配一系列只能获得一个动作的信用序列结束时奖励(正面或负面(？

，例如，一款TIC-TAC-TOE游戏，在游戏结束之前，代理商不会获得任何奖励。在这种情况下，几乎所有RL算法都试图解决时间信用测定问题。参见，例如，Sutton和Barto RL Book的第1.5节，在其中解释了RL的工作原理及其优于其他方法的优势，例如TIC-TAC-TOE游戏。

相关内容