我读过DQN论文。
在阅读DQN论文时,我发现随机选择和学习样本减少了使用非利尼尔函数逼近器的RL中的散度。
如果是这样,为什么当输入数据强相关时,使用非利尼尔函数逼近器的RL学习会发散?
我相信《用函数近似分析时间差分学习》的第X部分(从第687页开始(为您的问题提供了答案。综上所述,存在非线性函数,其平均预测误差在应用 TD(0( Bellman 算子后实际增加;因此,政策最终将出现分歧。深度神经网络通常就是这种情况,因为它们本质上是非线性的,并且从优化的角度来看往往表现不佳。
或者,对独立和相同分布(i.i.d.(数据的训练可以计算梯度的无偏估计值,这是随机梯度下降(SGD(等一阶优化算法收敛到损失函数的局部最小值所必需的。这就是为什么 DQN 从大型重播内存中随机小批量采样,然后使用 RMSProp(一种高级形式的 SGD(减少损失的原因。