Tesseract OCR 执行哪些预处理操作



我找不到详细的文档,也没有浏览源代码的感觉。我不想重做精明的边缘检测,例如,如果它已经由 Tesseract 引擎完成。

本文档概述了该引擎: https://github.com/tesseract-ocr/docs/blob/master/tesseracticdar2007.pdf

因此,看起来您不需要实现精明的边缘检测。

Tesseract使用Otsu阈值在处理图像之前将其二值化 https://github.com/tesseract-ocr/tesseract/blob/master/ccstruct/otsuthr.h

编辑:如果你想看到二值化的镜像,只需在"\tessdata\configs\"中创建一个新的配置文件,添加以下行:tessedit_write_images True并处理你的镜像:tesseract your_image out your_config_file。Tesseract将二值化图像保存为tessinput.tif

相关内容

  • 没有找到相关文章

最新更新