如何将扫描的页面划分为像reCaptcha项目这样的单词



我想数字化一本书在一个类似的方式验证码项目。是否已经有一种系统可以输入图像,然后输出围绕单词裁剪的小图像?有什么办法吗?

您应该查看验证码可能基于的Tesseract OCR项目。它具有输出已识别单词的坐标的能力。然后将页面裁剪为这些线,就完成了。

如果你只想将图像分割成多个图像,每个图像一个单词,你可以尝试找到单词边界框,然后将这些坐标用于分割。这可以通过在水平方向上获取文档的直方图/投影,然后在垂直方向上获取每条线来实现。在本文中可以找到一个带有一些图片的算法示例:"基于边界框投影技术的文档页面分解"(http://haralick.org/conferences/71281119.pdf)。你可以在OpenCV中实现这个。

或者,您可以使用bepe9000中提到的Tessaract。也许这有帮助:使用python-tesseract

获取已识别单词的边界框

但是这样你就得到了训练OCR的整个复杂性即使你只想要边界框

最新更新