如何解决基于计算机视觉的深度学习模型中的"cold start"问题?



"冷启动"是指用于对象检测或语义分割的计算机视觉模型通常每个类需要大约 5000 张图像。因此,如果一个想法在公司内部提出,例如,我们想使用物体检测来计算卡车调度时的原木数量,然后使用相同的应用程序来计算收到的数量。

所以现在的挑战是,卡车上只有几张木头原木的图像,但要训练任何模型,你需要数千张,那么从业者通常为这些原型做什么呢?

因为在这个阶段还不清楚要尝试什么模型?要求企业投资收集数千张原木图像并对其进行标记也不是很可行?

这就是为什么我称之为"冷启动"。你如何开始?

我研究的是条件 GAN,Pix-2-Pix,但我试图了解当每个对象类的图像很少时如何开始的推荐方法。

我希望当我在一个文件夹中放置一些图像并调用这个库时,我最终会在每个类中获得更多的图像,这样我就可以开始我的原型设计了。

请注意,要求软件库在这里是特别题外话。

不,没有神奇的解决方案:如果您的数据集图像中没有足够的信息来训练手工制作的模型,那么再多的软件也无法改变这一事实。 然而,第一种方法是挑战这个"事实":你怎么知道你没有足够的图像? 当你使用你所拥有的东西来训练模型时发生了什么? 在模型收敛之前,您将训练更多的 epoch,但通过训练相当数量的迭代,您应该能够获得远优于随机精度的精度。

我严重怀疑您是否需要收集和标记数千张图像:您有一个非常有限的范式,从您控制的有利位置拍摄的原木卡车照片。 训练一个模型来计算不重叠的近圆,比区分机动车辆和邮政信箱要少得多。

尝试使用您手头的基本模型 - 您已经拥有比您意识到的更多的解决方案。 如果你的数据集太小,带着数码相机走出院子,得到两倍,三倍,无论你需要什么。 左右翻转图像以获取更多输入。

这会让你动起来吗?

迁移学习解决了您所描述的"冷启动"问题。基本上,您可以使用大型开放数据集导入训练后获得的权重,并使用已有的较小数据集对其进行微调。数据增强、冻结某些层等可能有助于改进微调模型的结果。

最新更新