为什么使用非线性函数逼近器随机化强化学习模型的样本可以减少方差?



我读过DQN论文。

在阅读DQN论文时,我发现随机选择和学习样本减少了使用非利尼尔函数逼近器的RL中的散度。

如果是这样,为什么当输入数据强相关时,使用非利尼尔函数逼近器的RL学习会发散?

我相信《用函数近似分析时间差分学习》的第X部分(从第687页开始(为您的问题提供了答案。综上所述,存在非线性函数,其平均预测误差在应用 TD(0( Bellman 算子后实际增加;因此,政策最终将出现分歧。深度神经网络通常就是这种情况,因为它们本质上是非线性的,并且从优化的角度来看往往表现不佳。

或者,对独立和相同分布(i.i.d.(数据的训练可以计算梯度的无偏估计值,这是随机梯度下降(SGD(等一阶优化算法收敛到损失函数的局部最小值所必需的。这就是为什么 DQN 从大型重播内存中随机小批量采样,然后使用 RMSProp(一种高级形式的 SGD(减少损失的原因。

相关内容

  • 没有找到相关文章

最新更新