使用图像而不是字体训练 tesseract 4



我有一些关于为 tesseract 4 制作 tiff/box 文件的问题。 在 TrainingTesseract 4.00 文档中写道:

制作盒子文件 与基本Tesseract一样,可以选择 从字体呈现合成训练数据,或标记一些 预先存在的图像(例如古代手稿(。

但它没有解释如何使用预先存在的图像进行训练。

我想在tesseract 4(lstm(中训练波斯语。我有一些来自古代手稿的图像,并希望使用图像和文本而不是字体进行训练。所以我不能使用text2image命令。我知道旧的格式框文件不适用于 LSTM 培训。

  1. 我怎样才能为 tessearct 4 lstm 制作 tif/box,然后给它们贴上标签和 如何更改 Tesseract 命令?
  2. 我应该使用其他工具来生成盒子文件吗(鉴于波斯语 语言是从右到左(?
  3. 我应该使用微调还是从头开始训练?

我和你一样挣扎,直到我找到这个 github 存储库: https://github.com/OCR-D/ocrd-train

它会让你的生活变得超级轻松。您需要做的就是将图像设置为tif格式,并且文本应具有相同的图像名称,扩展名为.gt.txt。它将为您处理其余所有事情。(您可能需要根据本地计算机更新生成文件(

是从头开始训练还是微调取决于您自己的语言、数据和您要解决的问题。对我来说,微调是我需要的,因为我对当前的性能感到满意,但需要添加它。

您可能需要的所有有用详细信息都可以在此答案中找到

1( 使用以下命令进行lstmbox

tesseract test.tif test-lstmbox  -l eng --psm 6 lstmbox

它会为您制作一个lstmbox,但您必须更正盒子文件中的字符。

2(您需要足够的数据从头开始训练,所以我建议微调是更好的选择。

最新更新