一个纪元后过度拟合

我正在使用Keras训练一个模型。

model = Sequential()
model.add(LSTM(units=300, input_shape=(timestep,103), use_bias=True, dropout=0.2, recurrent_dropout=0.2))
model.add(Dense(units=536))
model.add(Activation("sigmoid"))
model.compile(loss="binary_crossentropy", optimizer="adam", metrics=["accuracy"])
while True:
history = model.fit_generator( 
generator = data_generator(x_[train_indices],
y_[train_indices], batch = batch, timestep=timestep),
steps_per_epoch=(int)(train_indices.shape[0] / batch), 
epochs=1, 
verbose=1, 
validation_steps=(int)(validation_indices.shape[0] / batch), 
validation_data=data_generator(
x_[validation_indices],y_[validation_indices], batch=batch,timestep=timestep))

这是一个符合 scikit-learn.org 定义的多输出分类：多输出回归为每个样本分配一组目标值。这可以被认为是预测每个数据点的多个属性，例如某个位置的风向和幅度。

因此，它是一个递归神经网络，我尝试了不同的时间步长。但结果/问题大致相同。

在一个时期之后，我的火车损失约为 0.0 倍，验证损失约为 0.6 倍。并且该值在接下来的 10 个时期保持稳定。

数据集约为 680000 行。训练数据为 9/10，验证数据为 1/10。

我要求背后的直觉。

我的模型在短短一个时代后就已经超负荷了吗？
0.6xx 甚至是验证损失的好值吗？

高级问题：因此，这是一个多输出分类任务(不是多类)，我认为使用 sigmoid binary_crossentropy的唯一方法。您是否建议采用其他方法？

我遇到过这个问题，发现学习率和批量大小对学习过程有巨大影响。就我而言，我做了两件事。

降低学习率(尝试 0.00005)
减小批量大小(8、16、32)

此外，您可以尝试防止过度拟合的基本步骤。

降低模型的复杂性
增加训练数据，并平衡每个类的每个样本。
添加更多正则化(Dropout，BatchNorm)

相关内容

最新更新

热门标签：