人们为什么选择224x224的图像尺寸进行imagenet实验有什么特别的原因吗?



是出于某种原因还是只是计算约束,224x224提供了更好的精度?我认为更大的图景应该提供更好的准确性,不是吗?

更大的图像包含更多信息,这些信息可能是相关的,也可能是不相关的。输入的大小很重要,因为输入越大,网络必须处理的参数就越多。更多的参数可能会导致几个问题,首先你需要更多的计算能力。然后,您可能需要更多数据进行训练,因为大量参数和没有足够的样本可能会导致过度拟合,尤其是 CNN。选择AlexNet的224也允许他们应用一些数据增强。

例如,如果你有一个 512x512 的图像,并且你想在那里识别一个对象,最好将其重新采样为 256x256 并获得 224x224 或 200x200 的较小斑块,进行一些数据增强,然后进行训练。您还可以使用 400x400 的补丁,还可以进行数据增强和训练,前提是您有足够的数据。

不要忘记进行交叉验证,以便检查是否存在过度拟合。

最新更新