Tesseract我该如何训练我的数据集



我有一个数据集,里面有很多gt.txt和tiff文件,大约有1000个文件,我尝试使用tesstrain项目并运行以下命令maketraining MODEL_NAME=ccm7 TESSDATA=path/to/TESSDATA_best此命令运行成功,但当我尝试使用traineddata时,它没有按预期工作。我的问题是,为tesseract训练数据集的正确形式是什么?非常感谢。

为了用图像训练我的数据集,我在图像旁边使用了两种类型的文件:

  • 具有预期输出的gt.txt文件
  • 框文件由图像生成,其中包含我想要训练模型的更改

我将所有3个文件放在testrain/data/my model ground-truth中,并从testrain文件夹运行以下命令:

make training MODEL_NAME=my-model START_MODEL=eng TESSDATA=../tessdata_best

这是假设你想在tessdata_best存储库的eng.traineddata之上进行训练:https://github.com/tesseract-ocr/tessdata_best

它在testrain/data文件夹中生成my-model.traineddata

相关内容

最新更新