手写数字训练技巧:mftraining一步需要很长时间



我一直在尝试训练Tesseract 3.04来识别手写数字。该方法首先在论文的以下链接中提出:https://arxiv.org/abs/1003.5897.我已经使用Training Tesseract 3.04 wiki页面和本教程遵循了必要的步骤:http://www.resolveradiologic.com/blog/2013/01/15/training-tesseract/

我从扫描的页面中创建了一个tiff图像,其中包括我手写的数字。我可以创建一个box文件,并使用特定的第三方tesseract GUI(称为tesseract4java)编辑该box文件。我已经进入mftraining步骤,没有任何明显的问题。

但在发出命令后:mftraining-F font_properties-U unicharset-O ali.unicharset ali.test_font.exp0.tr

训练需要很长时间才能完成,过了一段时间,我的笔记本电脑就崩溃了。由于我只训练了10个角色,每个角色最多有15个实例,所以我认为发生这种行为是因为我在前一步中犯了错误。以下是我对可能出现问题的看法:

  1. 我创建了一个font_properties文件,并在其中添加了一个具有所需格式的文本文件。但由于我同时也在创建一个新字体,maybe tesseract无法识别新字体,或者认为我正在将字体混合在一个tiff图像中那么我应该在字体属性文件中添加一个新的字体名称吗?但是手写数字应该是什么字体呢?

  2. Training Tesseract页面指出,我应该将训练文本添加为UTF-8文本文件,但我还没有完成这一步。我没有训练文本,只有图像,我不知道如何将数字转换为UTF-8文本文件,以及将该文件放在哪里这会导致我遇到的问题吗

  3. 也许我创建的文件在错误的目录中。目前,我附加的所有文件(+unicharset和font_properties)都在tesseract.304目录中。我应该将它们添加到tessdata还是在tesseract目录中创建一个新文件?

如果您能帮助我回答这些问题,或提供任何其他关于为什么我的mftraining步骤将永远存在的建议,我们将不胜感激。非常感谢。

好的,我认为问题是我没有对输入图像进行预处理。tiff

在我将tiff图像转换为8bpp(每像素位)并转换为300dpi密度后,mftraining步骤在几秒钟后完成。我使用了以下命令:(来自imagemagik)

转换-密度300-深度8输入.pdf输出.tif

此外,我认为将图像更改为灰度会有所帮助。

edit:mftraining命令中的font_properties文件也应该命名为lang.font_properties

相关内容

  • 没有找到相关文章

最新更新