如何为深度学习训练数据集创建真实边界框?

我正在做一个项目，我想使用掩码RCNN来识别一组图像中的对象。但是，我很难理解如何为真实数据创建边界框(编码像素(。谁能指出我正确的方向或进一步向我解释这一点？

边界框通常是手动标记的。大多数深度学习的人使用单独的应用程序进行标记。我相信这个包很受欢迎：

https://github.com/AlexeyAB/Yolo_mark

我开发了自己的 RoR 标记解决方案，因为将工作分配给几个人很有帮助。如果您想查看，该存储库是开源的：

https://github.com/asfarley/imgclass

我认为将其称为"编码像素"有点误导。边界框是带标签的矩形数据类型，这意味着它们完全由矩形角的类型(汽车、公共汽车、卡车(和 (x，y( 坐标定义。

用于定义边界框的软件通常由图像显示元素以及允许用户在UI上拖动边界框的功能组成。我的应用程序使用单选按钮列表来选择对象类型(汽车、公共汽车等(;然后用户绘制一个边界框。

完全标记图像的结果是一个文本文件，其中每行代表一个边界框。您应该查看训练算法的库文档，以准确了解输入边界框所需的格式。

在我自己的应用程序中，我开发了一些功能来比较来自不同用户的边界框。在任何大型 ML 工作中，您可能会遇到一些错误标记的图像，因此您确实需要一个工具来识别这一点，因为它会严重降低您的结果。

相关内容