具有线性函数近似的 Q 学习



我想得到一些关于如何使用Q学习算法和函数近似的有用说明。对于基本的Q学习算法,我找到了例子,我想我确实理解了它。在使用函数近似的情况下,我遇到了麻烦。有人可以通过一个简短的例子给我解释它是如何工作的吗?

我所知道的:

  1. 对于 Q 值使用矩阵,我们使用特征和参数。
  2. 使用羽毛和参数的线性组合进行近似。
  3. 更新参数。

我已经检查了这篇论文:带有函数逼近的Q学习

但是我找不到任何有用的教程如何使用它。

感谢您的帮助!

在我看来,这是最好的参考之一。它用几个伪代码示例写得很好。在您的情况下,您可以通过忽略资格跟踪来简化算法。

此外,根据我的经验,根据您的用例,Q-Learning 可能无法很好地工作(有时它需要大量的体验数据)。例如,您可以尝试 Fitted-Q 值,这是一种批处理算法。

相关内容

  • 没有找到相关文章

最新更新