时间差分学习和反向传播



我已经阅读了斯坦福的这一页 - https://web.stanford.edu/group/pdplab/pdphandbook/handbookch10.html。我无法理解TD学习如何在神经网络中使用。我正在尝试制作一个跳棋AI,它将使用TD学习,类似于他们在西洋双陆棋中实现的。请解释TD反向传播的工作原理。

我已经提到了这个问题 - 神经网络和时间差分学习但我无法理解公认的答案。如果可能,请用不同的方法解释。

TD学习不用于神经网络。相反,神经网络在TD学习中用于存储值(或q值(函数。

我认为您将反向传播(神经网络的概念(与 RL 中的引导混淆了。引导使用最新信息和先前估计的组合来生成新的估计。

当状态空间较大且不容易将值函数存储在表中时,使用神经网络作为近似方案来存储值函数。

关于前进/后退视图的讨论更多是关于资格跟踪等。RL 引导薮猫提前一步的情况。但是,这是不切实际的,并且有一些方法(例如资格跟踪(可以留下痕迹并更新过去的状态。

这不应该与神经网络中的反向传播联系起来或混淆。它与它无关。

最新更新