使用图像而不是字体训练 tesseract 4

我有一些关于为 tesseract 4 制作 tiff/box 文件的问题。在 TrainingTesseract 4.00 文档中写道：

制作盒子文件与基本Tesseract一样，可以选择从字体呈现合成训练数据，或标记一些预先存在的图像(例如古代手稿(。

但它没有解释如何使用预先存在的图像进行训练。

我想在tesseract 4(lstm(中训练波斯语。我有一些来自古代手稿的图像，并希望使用图像和文本而不是字体进行训练。所以我不能使用text2image命令。我知道旧的格式框文件不适用于 LSTM 培训。

我和你一样挣扎，直到我找到这个 github 存储库： https://github.com/OCR-D/ocrd-train

它会让你的生活变得超级轻松。您需要做的就是将图像设置为tif格式，并且文本应具有相同的图像名称，扩展名为.gt.txt。它将为您处理其余所有事情。(您可能需要根据本地计算机更新生成文件(

是从头开始训练还是微调取决于您自己的语言、数据和您要解决的问题。对我来说，微调是我需要的，因为我对当前的性能感到满意，但需要添加它。

您可能需要的所有有用详细信息都可以在此答案中找到

1( 使用以下命令进行lstmbox：

tesseract test.tif test-lstmbox  -l eng --psm 6 lstmbox

它会为您制作一个lstmbox，但您必须更正盒子文件中的字符。

2(您需要足够的数据从头开始训练，所以我建议微调是更好的选择。

相关内容