是否有可能在谷歌云视觉OCR中使用边界框和块容器?



我的目标是使用google云视觉来识别手写段落和它们的边界框。

我正在尝试使用谷歌云视觉"文档文本检测"API,您可以在其中找到拆分为块、段落、单词和符号的手写文本。这是非常可行的。这里是文档

的链接同样,我可以使用谷歌的"文本检测"。API来定位边界框的坐标。这里是文档 的链接我的问题是这两个分支不兼容,我不能同时运行(我正在寻找一个围绕段落的边界框)。

**有没有人知道如何使用"文档文本检测"Text Detection"谷歌云视觉?* *

然而,我似乎无法同时使用这两个功能(使用python供参考)。

欢呼。如有任何帮助,不胜感激。

我不知道我是否理解对了你的疑问,如果我理解错了,请纠正我。

如果我理解的话,你想让手写文本与识别文本位置的边界框一起检测到图像。

要做到这一点,正如您可以在Vision AI文档中的Try it会话上快速测试一样,您只需要处理API响应。您将得到如下所示的响应部分:

"textAnnotations": [
{
"locale": "en",
"description": "Google ClaudnPlatform",
"boundingPoly": {
"vertices": [
{
"x": 296,
"y": 68
},
{
"x": 712,
"y": 68
},
{
"x": 712,
"y": 253
},
{
"x": 296,
"y": 253
}
]
}
}

并检查Python SDK文档中的Vision AI,这些x和y构建多边形识别文本依赖的位置。