我对神经网络中"骨干"的含义感到困惑,尤其是在DeepLabv3+论文中。我做了一些研究,发现骨干可能意味着
网络的特征提取部分
DeepLabv3+以Xception和ResNet-101为骨干。但是,我对 DeepLabv3+ 的整个结构并不熟悉,骨干指的是哪一部分,哪些部分保持不变?
对骨干的概括性描述或定义也将不胜感激。
在我的理解中,"骨干"是指在DeepLab架构中使用的特征提取网络。该特征提取器用于将网络的输入编码为特定的特征表示。DeepLab 框架围绕此功能提取器"包装"功能。通过这样做,可以交换特征提取器,并且可以选择模型以在准确性、效率等方面适合手头的任务。
在DeepLab的情况下,术语骨干可能是指ResNet,Xception,MobileNet等模型。
TL;DR Backbone 不是深度学习中的通用技术术语。
(免责声明:是的,可能有一种特定类型的方法、层、工具等称为"骨干",但一般没有"神经网络的骨干"。
如果作者在描述神经网络架构时使用"骨干"一词,他们的意思是
特征提取- (网络的一部分,"看到"输入(,但这种解释在该领域并不十分普遍:例如,在我看来,计算机视觉研究人员会使用这个术语来表示特征提取,而自然语言处理研究人员不会。
- 用非正式语言来说,这部分对整体方法至关重要。
Backbone是DeepLab模型/论文中使用的术语,用于指代特征提取器网络。这些特征提取器网络从输入图像中计算特征,然后通过 DeepLab 模型的简单解码器模块对这些特征进行上采样,以生成分段掩码。DeepLab模型的作者已经展示了不同特征提取器(骨干(的性能,如MobileNet,ResNet和Xception网络。
CNN用于提取特征。有几个CNN可用,例如AlexNet,VGGNet和ResNet(骨干网(。这些网络主要用于对象分类任务,并在一些广泛使用的基准和数据集(如ImageNet(上进行了评估。在图像分类或图像识别中,分类器对图像中的单个对象进行分类,为每个图像输出单个类别,并给出匹配类的概率。而在对象检测中,模型必须能够识别单个图像中的多个对象,并提供标识对象位置的坐标。这表明对物体的检测可能比对图像的分类更困难。
来源和更多信息: https://link.springer.com/chapter/10.1007/978-3-030-51935-3_30