使用TensorFlow对象检测API作为平面图像识别器的最快方法是什么?



我是计算机视觉的新手

获取现场摄像头预览,并尝试在其中检测一个平面图像(徽标或绘画)。实时。如果发现的话,请在徽标周围绘制矩形。如果没有匹配,请不要绘制矩形。

我发现TensorFlow对象检测API是一个很好的起点。刚刚宣布了将TensorFlow模型导入Core ML的支持。

我遵循了很多教程来训练自己的对象探测器。培训数据是关键。我找到了一个很好的库来生成增强图像。我创建了数百个图像源(旋转,偏斜等...)的变化。但是它失败了!该数据集可能适合图像分类(在全屏中使用我的图像),但在上下文(房间)中不适合。

我认为转移学习是关键,就我而言,我将SSD_MOBILENET_V1_COCO模型用作基础。我试图通过随机擦除数据增强技术伪造我的增强图像的上下文。

我的解决方案是什么?我正确解决问题了吗?我需要尽可能快地进行模型培训。

我是否必须使用一些数据集进行室内外图像分类,然后将我的图像随机放在上面?这些观点有多重要?

谢谢!

I have created hundreds of variation of my image source (rotation, skew etc ...). But it has failed! 

这样,这意味着您的模型没有融合或最终表现不好?如果您的模型没有收敛,请添加更多数据。"数百个样本"很少。因此,请使用更多图像并制作更多样品,并使样品分散。

I think transfer-learning is the key, In my case, I used the ssd_mobilenet_v1_coco model as a base. I tried to fake the context of my augmented image with the Random Erasing Data Augmentation technique without success.

您的意思是微调。您是否将标签减少到2(您的图像和背景)并进行了微调。如果您没有,那么您肯定会失败。哦,伙计,您至少应该告诉我您的模型定义。

What are my available solutions? Do I tackle the problem rightly? I need to make the model training as fast as possible.

为了使训练更快,只需在多个GPU上添加更多的GPU并训练。如果您没有钱,请在Azure上租用一些GPU集群。相信我,那不是那么贵。

希望帮助

相关内容

最新更新