我可以在不更新训练代理的情况下训练DQN吗

我是RL的新手，所以如果我问了一个愚蠢的问题，请原谅：(

我现在正在做一个DQN项目，它非常类似于最简单的蛇游戏。游戏是用js编写的，并有一个演示(其中蛇随机移动(。但由于我不知道如何编写js，在训练过程中无法将动作值传递给游戏，我现在所做的是生成随机游戏图像并训练dqn模型。

我想问的是：这样做可能吗？Q(s，r(还能收敛吗？如果可能的话，我有什么需要注意的吗？我还需要episolon参数吗？

非常感谢：(

我肯定会说不！

问题是，代理只会从随机决策中学习，如果学习到的动作可能会产生更多的奖励，则永远无法尝试。因此，他所学的一切都将以起点为基础。此外，在你的情况下，特工永远不会学会如何处理他的体型(如果体型像蛇一样增长(，因为他永远不会因为糟糕的随机决策而增长。

想象一下，一个孩子试图骑自行车，你一骑完一米就把它从自行车上抬下来。它可能能够直线行驶一米甚至更多米，但永远无法转弯等。

相关内容