我如何训练tesseract而不是创造一种新的语言

所以我现在正在尝试tesseract，它确实有效，但它不够准确。我知道图像质量也有影响，等等等等，但是我使用的一些文档使用了一种非常不寻常的字体。虽然它仍然可以识别其中的一部分(大约50-60%，这很好)，但这显然不是完全令人满意的。

我想知道现在是否有可能训练tesseract，但不是创建一种全新的语言，而是使用我已经使用的数据，并在此基础上建立并改进它?

第二，如果这是可能的，这是可取的吗?或者(2)为我遇到的每一种新字体创建新语言，或(3)为我遇到的每一种新字体创建新语言，但不是从头开始，而是始终建立在我现在使用的默认数据之上?你觉得呢?如果你能提供任何关于如何训练tesseract的链接;使用已提供的培训数据，请让我知道。

您可以按照文档中给出的方法从.traineddata文件中提取文件:指定选项-u将所有组件解压缩到指定的路径:

combine_tessdata -u tessdata/eng。traineddata/home/$用户/temp/eng。这将创建/home/$USER/temp/eng。*从tessdata/eng.traineddata中包含单个tessdata组件的文件。也有其他选项，请查看以下链接的文档。https://github.com/tesseract-ocr/tesseract/blob/master/doc/combine_tessdata.1.asc

但与其玩原始文件，不如训练tesseract学习一门新语言。

(2)你不必为每种字体创建新的语言。您必须为每种字体创建图像，框和训练文件。所有这些将被组合成单一语言的训练数据文件。

(3)这也是可能的。请访问https://github.com/tesseract - ocr/tesseract/wiki/training超正方体——3.00%——e2%80%933.02 # bootstrapping-a-new-character-set

相关内容

最新更新

热门标签：