云视觉API是否有方法返回键值对作为响应,就像他们的AWS文本对应物一样?



我需要一种以Key-Value格式访问OCR数据的方法。谷歌云视觉API是否有一种方法可以返回键值对作为响应,就像他们的AWS文本对应物一样?

我们目前正在返回边界坐标,但这在我们正在处理的场景中没有真正的帮助。

是否有任何我们可能忽略的OOB或简单配置设置?

我查了一下AWS text, GCP有一个类似的产品,那就是Document AI。文档人工智能可以处理简单的文档,也能够处理特定类型的表单,如政府表格、发票等。

我不熟悉AWS文本如何检索数据,但在文档人工智能的响应结构像文档->页面→(段落/线/块)→布局→文本锚点->文本段。在这种结构下,文本段包含startIndexendIndex。使用这些值,您可以从文档中获取整个段落/行/块。文本,并返回实际值。

你可以在这里查看示例代码实现,这样你就可以看到文档AI的流程。

最新更新