假设我们有1000张带有相应掩码的图像。如果我说错了,请纠正我,如果我们使用UNET,那么它将通过许多不同的卷积层,relu,池化等。它会根据相应的掩模来学习图像的特征。它会给物体贴上标签,然后学习我们在训练中传递的图像的特征。它将图像中的物体与其对应的掩码进行匹配,只学习物体的特征,不学习不必要的物体特征。就像我们传递猫的图像,它的背景充满了一些不必要的障碍物(箱子,桌子,椅子等)。根据猫的面具,它只会学习猫的特征。如果我错了,请详细说明你的答案。
是的,你是对的。
然而不仅仅是UNET每个分割算法的工作方式都是相同的,它将学习检测被屏蔽的特征并忽略不必要的对象(如您所提到的)。
顺便说一下,人们通常选择Fast RCNN有人知道由罗比UNET用于真实世界对象(如椅子,桌子,猫,汽车等)的多类分割。所以这里有一个简短的解释(但不限于)。1-所有的分割网络,或者让我们说任务(在更一般的术语中),使用实际图像和地面真相(你的掩模)来学习分类任务。
它真的是一个像逻辑回归或决策树这样的分类任务吗?
答:很酷,本质上是的,你的网络正在学习分类。但这与你的决策树或物流有点不同。
所以像UNET这样的网络试图学习如何对图像中的每个像素进行分类。这种学习是完全监督的,因为你有一个基本真理(掩模),它告诉网络,图像中的一个像素属于哪个类。因此,当你进行训练时,网络的权重(所有conv层的权重等等)都会被调整,这样它就可以学习将图像中的每个像素分类到相应的类中。