小贝子编程

云视觉API是否有方法返回键值对作为响应，就像他们的AWS文本对应物一样?

本文关键字：对应物文本 AWS 他们的一样有方法是否 API 视觉返回键值对 google-cloud-vision amazon-textract cloud-document-ai
更新时间 : 2023-09-23
英文 : Does Cloud Vision API have a way to get back Key Value pair as response, like their AWS Textract counterpart?

我需要一种以Key-Value格式访问OCR数据的方法。谷歌云视觉API是否有一种方法可以返回键值对作为响应，就像他们的AWS文本对应物一样?

我们目前正在返回边界坐标，但这在我们正在处理的场景中没有真正的帮助。

是否有任何我们可能忽略的OOB或简单配置设置?

我查了一下AWS text, GCP有一个类似的产品，那就是Document AI。文档人工智能可以处理简单的文档，也能够处理特定类型的表单，如政府表格、发票等。

我不熟悉AWS文本如何检索数据，但在文档人工智能的响应结构像文档->页面→(段落/线/块)→布局→文本锚点->文本段。在这种结构下，文本段包含startIndex和endIndex。使用这些值，您可以从文档中获取整个段落/行/块。文本，并返回实际值。

你可以在这里查看示例代码实现，这样你就可以看到文档AI的流程。

相关内容