为什么googlenet(inception)在ImageNet数据集上运行良好



有人说,inception在ImageNet数据集上运行良好的原因是:ImageNet数据集中的原始图像具有不同的分辨率,并且在使用时会将它们调整为相同的大小。因此,能够处理不同分辨率的initiation非常适合ImageNet。这种描述是否属实?谁能详细解释一下吗?我真的很困惑。非常感谢!

首先,深度卷积神经网络接收固定的输入图像大小(如果是大小,你的意思是像素数),因此所有图像都应该具有相同的大小或维度,这意味着相同的分辨率。另一方面,如果图像分辨率高且包含大量细节,则任何网络的结果都会更好。Imagnet图像是高分辨率的fliker和调整大小的主题不需要插值,所以调整大小的图像保持良好的形状。

第二个,初始模块的主要目标是降维,这意味着如果我们有1X1卷积,那么维数计算中的系数是1:

output_dim = (input_dim + 2 * pad_data[i] - kernel_extent) / stride_data[i] + 1;

Inception或者换句话说,GoogLeNet,网络是巨大的(超过100层),并且在计算上不可能让许多CPU甚至GPU通过所有卷积,所以它需要降维。

你可以在Imagnet数据集中使用更深的AlexNet(有更多的层),我敢打赌它会给你一个好的结果,但当你想深入到30层以上时,你应该有一个很好的策略,比如Inception。顺便说一句,Imagnet数据集在Deep-netsmore image == more accuracy中有超过500万个图像(上次我检查时)

最新更新