小贝子编程

重量更新 - 加强学习神经网络

本文关键字：学习神经网络更新 neural-network reinforcement-learning
更新时间 : 2023-09-07
英文 : Weight update - Reinforcement Learning + Neural Networks

我目前正在尝试了解TD-Gammon的工作原理并有两个问题：

1）我找到了一篇文章，该文章解释了重量更新。它由三部分组成。最后一部分是V（s）相对于w的差异。在文本中，它称为"运行总和"。如何计算该值？（我只对从输出到隐藏层的重量变化感兴趣，而不是进一步的重量更改）

2）阅读了更新权重的程序后，出现了一个问题：为什么我们不只是使用强化学习为状态创建目标价值，并将该价值赋予我们的神经网络，以便它学习返回当前状态的值？为什么有一个额外的更新规则直接操纵权重？

实际上，您只需要实现一个使用基本的平方错误总和的ANN即可。然后，用TD -Error值替换目标网络输出：e = r gamma*v（t 1）-v（t）

从那里，您只需使用典型的ANN BACKPROP权重更新规则。

因此，简而言之，我认为您的描述实际上是通过ANN算法进行的RL。它正在训练ANN学习状态/行动值函数。

相关内容

最新更新