我正在尝试训练一个YOLO模型。 为此,我将 224*224 的输入图像分成 14*14 个网格。
现在,如果假设有一个物体,它的中心位于Bx,通过将0,0视为图像的左上角,并分别具有Bw,Bh的高度和宽度。
Required_prediction=[Pc,Bx,By,Bw,Bh]
其中 Pc 是所需对象的概率
因此,模型的输出将为14 * 14 * 5。
我的问题是输出标签应该是什么?
所有框 [0,0,0,0,0] 和包含 req img 中心的框为 [pc,bx,by,bw,bh]或
所有框 [0,0,0,0,0,0] 除了标记为 [pc,bx. . ]
的所需图像的整个区域。
也
对于 bx,by,bw,bh 图像的中心应指定在图像的左上角或坐标落入的网格?
所有框 [0,0,0,0,0] 和包含 req img 中心的框为 [pc,bx,by,bw,bh] 是假设您将图像划分为网格14*14
的正确选择。
但是在现实世界中,他们使用不同的大小来拆分图像来解决这个问题,这意味着您可以将图像拆分为14*14
,8*8
和4*4
网格以处理不同大小的对象