我是RL的新手,所以如果我问了一个愚蠢的问题,请原谅:(
我现在正在做一个DQN项目,它非常类似于最简单的蛇游戏。游戏是用js编写的,并有一个演示(其中蛇随机移动(。但由于我不知道如何编写js,在训练过程中无法将动作值传递给游戏,我现在所做的是生成随机游戏图像并训练dqn模型。
我想问的是:这样做可能吗?Q(s,r(还能收敛吗?如果可能的话,我有什么需要注意的吗?我还需要episolon参数吗?
非常感谢:(
我肯定会说不!
问题是,代理只会从随机决策中学习,如果学习到的动作可能会产生更多的奖励,则永远无法尝试。因此,他所学的一切都将以起点为基础。此外,在你的情况下,特工永远不会学会如何处理他的体型(如果体型像蛇一样增长(,因为他永远不会因为糟糕的随机决策而增长。
想象一下,一个孩子试图骑自行车,你一骑完一米就把它从自行车上抬下来。它可能能够直线行驶一米甚至更多米,但永远无法转弯等。