是否有一种方法来预测从谷歌云视觉OCR文档标题?

我需要帮助的是一种从OCR文本中预测文档标题的方法，谷歌云视觉从pdf/jpg文件中提取。

我有一个jpg文件，我发送到视觉API，我得到OCR文本。对于所附的图像，我如何通过编程来预测文档的标题是"钢琴姿势检查列表"?

使用视觉API (TextAnnotation)检测文本时得到的响应结构类似于TextAnnotation ->页面→块(文本块、表块等)->段→词→的象征。它们的附加属性仅为检测到的语言、检测到的断行(空格、连字符、换行)。因此，视觉API无法像"标题"那样预测具体内容。文件的。参见textnotation参考

如果你想预测像"Title"在文档/图像中。我建议使用AutoML Vision，在那里你可以训练一个模型来预测"标题"，给定一组正确标记的文档/图像。训练完成后，您可以发送预测请求来预测"标题"。

关于如何准备数据集、训练模型和预测的示例，您可以参考此文档。

您想要"预测"文档标题。这里有两种可能的情况:

根据标题本身在文档中某处出现的或
你想根据(OCR'd)内容预测标题，因为文档没有/没有标题。

对于#1，我同意Ricco的回应:你应该为你的应用构建一个自定义版本的云视觉API，然后使用AutoML(好吧，AutoML Vision)调整模型以满足你的需求，例如，从OCR文档中获取标题，是否寻找标题位置/位置，字体大小等。

更高级的是#2。您可能必须使用对api……OCR与云视觉(w/或w/o AutoML)，然后使用NLU通过云自然语言(或AutoML自然语言，如果需要的话)分析文本，如果文档没有出现，可能会根据其内容自动生成标题。我相信在这种情况下，你的训练可能不得不倾向于监督学习，在你的训练数据中提供标题和无标题文档配对。

相关内容

最新更新

热门标签：