如何使用Google Cloud Vision API检测手写

TL；DR：如何检测图像中是否存在手写？

我使用Google的Python Vision API来扫描图像中的文本，通常效果很好。大多数情况下，图像包含打印文本，但有时也有手写。

如文档中所述，使用document_text_detection而不是标准的text_detection API调用，有时可以获得更好的手写文本结果。我自己的测试支持了这一点，但也表明标准的text_detection调用通常最适合JPEG图像中的打印文本。

所以我想默认使用标准的text_detection，并且只有在有手写的情况下才通过document_text_detection运行图像。然而，我找不到一种可靠的方法来使用Vision API检测图像中是否存在手写文本。

我尝试了标签检测，但似乎没有针对手写的特定标签。偶尔它会吐出"书法"，但并不可靠。

有人知道实现这一点的方法吗？

我还没有使用Google Cloud Vision API，但您可以尝试对象检测模型。我建议使用LabelImg等工具在用例的文档图像上创建一个标记的数据集，并训练Yolov3[论文][代码]等对象检测模型。我也处理过类似的问题，应该行得通。

相关内容