艺术风格的神经算法使用在ImageNet上训练的VGG16分类网络的中间特征向量的格拉姆矩阵。当时,这可能是一个不错的选择,因为VGG16是表现最好的分类之一。如今,有更高效的分类网络在分类性能上超过了VGG,同时需要更少的参数和FLOPS,例如EfficientNet和MobileNetv2。
但是当我在实践中尝试这个时,VGG16特征的格莱米亚矩阵似乎代表了图像风格,因为它对于风格相似的图像的L2距离小于到风格上不相关的图像的L2距离。对于从EfficientNet和MobileNetv2特征计算的Gramian Matrix,情况似乎并非如此。非常相似的图像之间和非常不同的图像之间的L2距离仅相差约5%。
从网络结构来看,VGG、EfficientNet 和 MobileNet 都有卷积,中间有批量归一化和 ReLU,所以构建块是相同的。那么,VGG的哪个设计决策是独一无二的,以至于它的Gramian Matrix可以捕捉到风格,而EfficientNet和MobileNet则没有?
到现在为止,我想通了:格拉姆矩阵需要部分相关的特征才能正常工作。较新的网络使用 Dropout 正则化器进行训练,这将减少特征间的相关性。