双深度Q网络学习中的路径成本函数是什么,终端成本是什么



我只熟悉强化学习的基础知识,遇到了两个我不理解的术语:路径成本函数和给定系统的终端成本。这些术语与Bellman方程中的术语类似吗?附上论文的一段内容。

第1部分

第2部分

这些不是RL术语,而是您链接的论文中的一些任意命名约定。从RL的角度来看,这两种奖励都被称为奖励,作者选择区分在决策点上获得的奖励("路径式"(,因此形式为R(s_t,a(的奖励和在最终状态R(s_t(中获得的奖励。传统上,在RL中,我们只会将奖励附加到行动上,因此;终端成本";会被折叠到任何导致我们走向终结状态的行动中。或者,我们只会将奖励附加在各州身上。差异确实很小,最终主要是因为作者的偏好。同样,在这里,作者更喜欢为物体单独命名,因为在他们讲故事和/或数学时,这是相关的。RL中没有普遍的分裂。

相关内容

最新更新