我正在用加固学习的AI进行AI,并且我得到的结果很奇怪,损失表明这样:TensorFlow损失:https://i.stack.imgur.com/hispr.jpg
在训练时,每场比赛都在与随机玩家和具有加权矩阵的玩家进行比赛,但它上下移动:结果:https://i.stack.imgur.com/mtwis.jpg
基本上,我正在做一个学习扮演奥赛罗的增强学习代理。使用电子怪事,在张tensorflow上使用keras体验重播和深层网络。尝试了不同的体系结构,例如Sigmoid,Relu和上面显示的Tanh中的图像。它们都有相似的损失,但结果有些不同。在这个景象中,代理商是从100k专业游戏中学习。这是架构,默认学习率为0.005:
model.add(Dense(units=200,activation='tanh',input_shape=(64,)))
model.add(Dense(units=150,activation='tanh'))
model.add(Dense(units=100,activation='tanh'))
model.add(Dense(units=64,activation='tanh'))
optimizer = Adam(lr=lr, beta_1=0.9, beta_2=0.999, epsilon=1e-08, decay=0.0)
model.compile(loss=LOSS,optimizer=optimizer)
原始代码:https://github.com/jordimd92/thellia/tree/keras
那么,为什么我得到这些结果?现在,我的输入是64个神经元(8*8矩阵),带有0个void正方形,1个黑色正方形和-1个白色正方形。使用负输入不好?
这可能是您的激活函数的问题。尝试使用relu而不是tanh,如果您使用的是深Q学习,则可能不需要任何激活功能或注意重置权重的优化器。