哪种增强学习算法适用于具有连续可变奖励和没有中间奖励的问题



我认为标题是这样说的。"游戏"需要多个动作才能完成,此时计算了总分。目标是最大化这个分数,并且在游戏过程中没有为特定举动提供的奖励。是否有针对此类问题的现有算法?

编辑:通过"连续变量"的奖励,我的意思是它是浮点数,而不是双赢二进制的奖励。因此,例如,您不能通过加强到达那里的动作来回应"获胜"。您只有一个数字。您可以按偏好顺序对不同的运行进行排名,但是单个结果并不是特别有意义。

首先,我认为,当您谈论"连续变量奖励"时,您的问题的标题似乎有些混乱。也许您可以澄清这一方面。

另一方面,在没有考虑到上面的情况下,您看上去您正在谈论时间信用求和问题:您如何分配一系列只能获得一个动作的信用序列结束时奖励(正面或负面(?

,例如,一款TIC-TAC-TOE游戏,在游戏结束之前,代理商不会获得任何奖励。在这种情况下,几乎所有RL算法都试图解决时间信用测定问题。参见,例如,Sutton和Barto RL Book的第1.5节,在其中解释了RL的工作原理及其优于其他方法的优势,例如TIC-TAC-TOE游戏。

最新更新