YOLO 输出图像数组中的最后一个维度对应于什么?



>我正在阅读一篇文章,我发现了这个:

第一次检测由第 82 层进行。对于前 81 层,图像由网络向下采样,使得第 81 层的步幅为 32。如果我们有 416 x 416 的图像,则生成的特征图大小为 13 x 13。这里使用 1 x 1 检测内核进行一次检测,为我们提供了 13 x 13 x255 的检测特征图

在实现 YOLO 算法、构建模型并将图像作为输入传递给 Conv 网络时,我对这个片段产生了疑问:

output_vec = model.predict(img)
print([squeeze(a).shape for a in output_vec])
[(13, 13, 255(, (26, 26, 255

(, (52,52, 255(]

我明白(13,13(;(26, 26);(52, 52( 是三种不同比例的图像形状,但 255 对应于什么?

输出通道的数量对应于下面的等式B x (5 + C(。

输出特征映射中的每个点都将预测B边界框,其中每个边界框由 5 个数字组成:4 个数字表示边界框预测,第五个数字表示此边界框的置信度。 以及它所训练的每个C类的分类置信度。

在 COCO 上训练的 YOLO v3 的情况下,B = 3 和 C = 80 -> 3*(5 + 80( = 255

相关内容

  • 没有找到相关文章

最新更新