当一个重要的图像特征是图像内部的文本时,谷歌顶点AI图像自动ML分类



我想进行图像分类。在我的数据集中,尽管图像特征是这种分类的重要组成部分(颜色、形状等(,但如果不解释图像中的文本,某些类别的图像将很难区分

如果在某些情况下唯一的区别是文本,我不认为VertexAI/AutoML会使用预先训练的模型来促进分类。我知道谷歌视觉/OCR能够进行这样的提取。但是有没有一种方法可以使用谷歌云视觉提取作为额外的图像功能来进行图像分类(VertexAI/AutoML(?

目前我的项目使用3个模型(没有谷歌云(:

  • 模型1:使用图像特征对图像进行分类
  • 模型2:仅使用OCR+regex对图像进行分类(相同类别(
  • 模型3:组合两个模型,决定何时使用模型1或模型2

我想切换到Vertex AI,以下将提高我的项目质量:

  • AutoML分类似乎对模型1非常好
  • 我需要使用一个工具来管理我的数据集(Vertex AI管理的数据集(
  • Vertex AI具有有趣的流水线训练功能

如果确认AutoML在某些图像类别仅在文本中不同的情况下不会表现良好,我会使用Vertex AI自定义训练脚本重新创建类似的三层模型。我可以使用VertexAI/AutoML轻松创建模型1。然而,我不知道是否:

  • 我可以使用谷歌云视觉/ocr创建模型2和顶点ai自定义训练脚本来进行图像分类
  • 我可以创建模型3,该模型将使用顶点ai创建的模式12

你能给我推荐一下如何使用谷歌云平台实现这一目标吗?

为此,我建议您使用以下方法:

1.型号2:

  • 将图像保存在GCS
  • 使用检测图像中的文本| Cloud Vision API生成数据集(文本({"gcs":"gs://path_to_image/image_1","text":["text1"...]}
  • 在这个由视觉api处理的文本数据集上使用AutoML只需在此数据上使用正则表达式或者插入bigquery数据集并对其进行查询,依此类推

1.型号3:

  • 我会采用类似的方法,使用云视觉API处理图像并生成文本数据集,但这一次,上面没有任何文本的图像将生成"text"字段为空{"gcs":"gs://path_to_image/image_2","text":[]}的数据集。您自己的脚本可以排除带有文本的数据,并为模型2生成数据集,为模型1生成数据集

我发现您的型号2和3不是严格的分类。模型2是一个ocr问题,您可以处理输出数据。模型3基本上是处理您的数据并分离适当的数据集。

我希望这一见解能对你有所帮助。

最新更新