是否有一种方法来预测从谷歌云视觉OCR文档标题?



我需要帮助的是一种从OCR文本中预测文档标题的方法,谷歌云视觉从pdf/jpg文件中提取。

我有一个jpg文件,我发送到视觉API,我得到OCR文本。对于所附的图像,我如何通过编程来预测文档的标题是"钢琴姿势检查列表"?

使用视觉API (TextAnnotation)检测文本时得到的响应结构类似于TextAnnotation ->页面→块(文本块、表块等)->段→词→的象征。它们的附加属性仅为检测到的语言、检测到的断行(空格、连字符、换行)。因此,视觉API无法像"标题"那样预测具体内容。文件的。参见textnotation参考

如果你想预测像"Title"在文档/图像中。我建议使用AutoML Vision,在那里你可以训练一个模型来预测"标题",给定一组正确标记的文档/图像。训练完成后,您可以发送预测请求来预测"标题"。

关于如何准备数据集、训练模型和预测的示例,您可以参考此文档。

您想要"预测"文档标题。这里有两种可能的情况:

  1. 根据标题本身在文档中某处出现的
  2. 来预测正确的文档标题
  3. 你想根据(OCR'd)内容预测标题,因为文档没有/没有标题。

对于#1,我同意Ricco的回应:你应该为你的应用构建一个自定义版本的云视觉API,然后使用AutoML(好吧,AutoML Vision)调整模型以满足你的需求,例如,从OCR文档中获取标题,是否寻找标题位置/位置,字体大小等。

更高级的是#2。您可能必须使用api……OCR与云视觉(w/或w/o AutoML),然后使用NLU通过云自然语言(或AutoML自然语言,如果需要的话)分析文本,如果文档没有出现,可能会根据其内容自动生成标题。我相信在这种情况下,你的训练可能不得不倾向于监督学习,在你的训练数据中提供标题和无标题文档配对。

最新更新