小贝子编程

双深度Q网络学习中的路径成本函数是什么，终端成本是什么

本文关键字：是什么终端函数路径深度网络学习 reinforcement-learning
更新时间 : 2023-09-20
英文 : What is the path-wise cost function and what is the terminal cost in Double Deep Q-Network Learning?

我只熟悉强化学习的基础知识，遇到了两个我不理解的术语：路径成本函数和给定系统的终端成本。这些术语与Bellman方程中的术语类似吗？附上论文的一段内容。

第1部分

第2部分

这些不是RL术语，而是您链接的论文中的一些任意命名约定。从RL的角度来看，这两种奖励都被称为奖励，作者选择区分在决策点上获得的奖励("路径式"(，因此形式为R(s_t，a(的奖励和在最终状态R(s_t(中获得的奖励。传统上，在RL中，我们只会将奖励附加到行动上，因此；终端成本"；会被折叠到任何导致我们走向终结状态的行动中。或者，我们只会将奖励附加在各州身上。差异确实很小，最终主要是因为作者的偏好。同样，在这里，作者更喜欢为物体单独命名，因为在他们讲故事和/或数学时，这是相关的。RL中没有普遍的分裂。

双深度Q网络学习中的路径成本函数是什么，终端成本是什么

相关内容

最新更新

热门标签：