使用CNN,我想拍摄一张图像,其中每个像素都带有3个标签的注释。像这样:
0,1 (not object/object)
0,1,2,3... (Class of object, eg cat,dog)
0,1,2,3...(Object Number of given class eg, 2nd instance of cat)
换句话说,给定多只猫和狗的图片,CNN将输出给定像素来自一个物体,该物体是一只猫,它属于图像中猫的第二个实例(例如从左上角计数(。
这是否可以使用单个CNN来实现,或者我必须组合多个CNN才能获得此结果?
编辑:我应该注意,我知道我最初必须用带注释的图像训练CNN,其中每个像素已经有2或3个标签,如上所述。
你应该研究一下全卷积神经网络。基本上,这些是没有全连接层的CNN,它们包含反卷积层。因此,给定一个NxN大小的图像,它输出一个NxN大小的图像,每个像素都有一个自身的标签,这在语义分割中具有直接应用。