为了掌握这个概念,我阅读了Mauricio Menegaz撰写的这篇文章,并在YouTube上观看了 Deeplearning.ai 的视频,但我对S x S x(B * 5 + C(部分感到困惑。我知道 S x S 代表网格大小,5 代表边界框的组件,C 代表类。B 和锚框一样吗?如果我只想检测一个类别(例如车牌(,这是否意味着只有 1 个 B?
编辑 在将图像馈送到神经网络之前,是否在图像上创建了边界框?
B 和锚框一样吗?
是的,它是。B 是锚框的数量
如果我只想检测一个类别(例如车牌(,这是否意味着只有 1 个 B?
不,在这种情况下,C = 1。但是如果你事先知道你需要检测的物体的宽高比,并且这个比值在视点之间变化不大,你可能只需要匹配这个比例的锚框,所以在你的车牌的情况下,B也可以是1
。但是,如果您需要检测汽车,则可能需要更多锚框,因为不同视点之间汽车的宽/高比差异很大
也许你可以看看这个实现: https://github.com/1991viet/Yolo-pytorch