批量大小会影响模型的准确性吗

我已经使用ResNet18主干和所提出的研究技术训练了Cifar100数据集，最终我得到了一些令人惊讶的结果。我已经进行了两次尝试，第一次是640批次，第二次是320批次。其余所有超参数保持相似。

我得到的640批次的准确率是：76.45%我得到的320批次的准确度是：78.64%

你能告诉我为什么会发生这种事吗？

根据我的说法，这只是因为协变移位。完成完整样本的每次迭代的分布会影响准确性。我认为，与640批次相比，320批次的分布彼此相似，这导致了更高的精度。

你能解释一下吗？解决办法是什么？

它比这简单得多。批量大小与梯度估计器的方差有直接关系-较大的批量->方差更低。增加批量大小大约相当于降低学习率的优化。

要进行更深入的分析，包括理论论证，请参阅https://proceedings.neurips.cc/paper/2019/file/dc6a70712a252123c40d2adba6a11d84-Paper.pdf

相关内容