使用 DQN 时在 epsilon 贪婪策略中退火 epsilon



使用 DQN 时,有人告诉我最好在学习之前填满整个重播内存。我想知道如何退火,如果我使用 epsilon 贪婪策略。假设重播内存大小为 10000,因此代理应在学习之前运行 10000 个步骤。我应该在 10000 步或学习开始后开始退火 epsilon?提前谢谢。

epsilon 贪婪策略中逐步减少 epsilon 参数的目标是从更具探索性的策略转向更具剥削性的策略。这一步,只有在代理学到了一些东西时才有意义,即当它有一些知识可以利用时。

因此,简而言之,您应该在学习开始后开始退火。

最新更新