我如何训练tesseract而不是创造一种新的语言



所以我现在正在尝试tesseract,它确实有效,但它不够准确。我知道图像质量也有影响,等等等等,但是我使用的一些文档使用了一种非常不寻常的字体。虽然它仍然可以识别其中的一部分(大约50-60%,这很好),但这显然不是完全令人满意的。

我想知道现在是否有可能训练tesseract,但不是创建一种全新的语言,而是使用我已经使用的数据,并在此基础上建立并改进它?

第二,如果这是可能的,这是可取的吗?或者(2)为我遇到的每一种新字体创建新语言,(3)为我遇到的每一种新字体创建新语言,但不是从头开始,而是始终建立在我现在使用的默认数据之上?你觉得呢?如果你能提供任何关于如何训练tesseract的链接;使用已提供的培训数据,请让我知道。

您可以按照文档中给出的方法从.traineddata文件中提取文件:指定选项-u将所有组件解压缩到指定的路径:

combine_tessdata -u tessdata/eng。traineddata/home/$用户/temp/eng。这将创建/home/$USER/temp/eng。*从tessdata/eng.traineddata中包含单个tessdata组件的文件。也有其他选项,请查看以下链接的文档。https://github.com/tesseract-ocr/tesseract/blob/master/doc/combine_tessdata.1.asc

但与其玩原始文件,不如训练tesseract学习一门新语言。

(2)你不必为每种字体创建新的语言。您必须为每种字体创建图像,框和训练文件。所有这些将被组合成单一语言的训练数据文件。

(3)这也是可能的。请访问https://github.com/tesseract - ocr/tesseract/wiki/training超正方体——3.00%——e2%80%933.02 # bootstrapping-a-new-character-set

最新更新