Tesseract Ocr引擎立方体模式-训练Tesseract



你能解释一下Tesseract ocr引擎上的立方体模式和立方体数据文件是什么吗?使用它们的优势是什么?

我怎样训练tesseract来学希腊语才能有更好的结果呢?

对于那些可能仍然感兴趣的人。在Tesseract的网站上,有不同文件的标准训练数据集。

https://code.google.com/p/tesseract-ocr/downloads/list?num=100&开始= 100

这里描述了培训程序(版本3.01)

https://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract3

在Cube的例子中,有另一个引擎与Tesseract相比较。它消耗更多的资源,速度更慢,但效果更好。

数据文件-一组文件,这些文件最终会导致(合并到)一个训练过的数据文件

在tesseract-ocr- extraocs项目wiki上有关于Cube引擎模式所需的各种培训文件的解释:

https://code.google.com/p/tesseract-ocr-extradocs/wiki/Cube

在那里您可以找到关于如何在Cube模式下创建训练所需文件的详细(但不完整)信息。还有一些关于神经网络文件格式的信息可能会有用:

https://code.google.com/p/tesseract-ocr-extradocs/wiki/nnFileFormat

使用神经网络而不是自适应分类器,立方体模式通常会给你更好的识别结果。

我从来没有自己创建过Cube训练文件,所以我不能给你关于如何创建这些文件的更详细的信息

For Tesseract 4+ (with LSTM)

我不完全确定立方体模式,但是使用--oem 1,您可以启用新的LSTM引擎并利用以下解决方案:

  • 使用现有模型

    我建议使用Tesseract GitHub repo上提供的预训练模型。他们有各种各样的语言(看起来希腊文也支持!)

  • 自己训练

    我自己没有试过,但是GitHub上的相关Wiki看起来很可靠。

tl-dr

  • git clone git@github.com:tesseract-ocr/tessdata.git
  • 选择需要的语言文件
  • 将其移动到项目的tessdata目录

据我所知,PaddleOCR似乎是训练OCR模型的更好工具箱。当然,它提供的训练模型在大多数场景下都表现良好。你可以试试。:)

快速入门:https://github.com/PaddlePaddle/PaddleOCR/blob/dygraph/doc/doc_en/quickstart_en.md

如何训练文本检测模型:https://github.com/PaddlePaddle/PaddleOCR/blob/dygraph/doc/doc_en/detection_en.md

如何训练文本识别模型:https://github.com/PaddlePaddle/PaddleOCR/blob/dygraph/doc/doc_en/recognition_en.md

最新更新