YOLO 的训练数据

我正在尝试训练一个YOLO模型。为此，我将 224*224 的输入图像分成 14*14 个网格。

现在，如果假设有一个物体，它的中心位于Bx，通过将0,0视为图像的左上角，并分别具有Bw，Bh的高度和宽度。

Required_prediction=[Pc,Bx,By,Bw,Bh]

其中 Pc 是所需对象的概率

因此，模型的输出将为14 * 14 * 5。

我的问题是输出标签应该是什么？

所有框 [0,0,0,0,0] 和包含 req img 中心的框为 [pc，bx，by，bw，bh]或
所有框 [0,0,0,0,0,0] 除了标记为 [pc，bx. . ]
的所需图像的整个区域。

也

对于 bx，by，bw，bh 图像的中心应指定在图像的左上角或坐标落入的网格？

所有框 [0,0,0,0,0] 和包含 req img 中心的框为 [pc，bx，by，bw，bh] 是假设您将图像划分为网格14*14的正确选择。

但是在现实世界中，他们使用不同的大小来拆分图像来解决这个问题，这意味着您可以将图像拆分为14*14，8*8和4*4网格以处理不同大小的对象

相关内容