批量大小会影响模型的准确性吗



我已经使用ResNet18主干和所提出的研究技术训练了Cifar100数据集,最终我得到了一些令人惊讶的结果。我已经进行了两次尝试,第一次是640批次,第二次是320批次。其余所有超参数保持相似。

我得到的640批次的准确率是:76.45%我得到的320批次的准确度是:78.64%

你能告诉我为什么会发生这种事吗?

根据我的说法,这只是因为协变移位。完成完整样本的每次迭代的分布会影响准确性。我认为,与640批次相比,320批次的分布彼此相似,这导致了更高的精度。

你能解释一下吗?解决办法是什么?

它比这简单得多。批量大小与梯度估计器的方差有直接关系-较大的批量->方差更低。增加批量大小大约相当于降低学习率的优化。

要进行更深入的分析,包括理论论证,请参阅https://proceedings.neurips.cc/paper/2019/file/dc6a70712a252123c40d2adba6a11d84-Paper.pdf

相关内容

最新更新