PaddleOCR性能与Tesseract相比如何



我最近遇到了PaddleOCR,我想知道这个OCR系统与Tesseract相比如何。是否有可用的数据或基准?

我已经在一些研究中使用这两种方法将近一年了。我可以说,每一种都有其完美的用途。

PaddleOCR PROs:

  1. 如果文本以非90度旋转旋转,PaddleOCR仍然可以正确检测某些文本,但即使使用OSD,Tesseract也无法做到这一点
  2. 您可以使用检测结果来修复旋转,但Tesseract可能会检索到无意义的结果
  3. 如果无法对图像进行二进制化,则当图像处于RGB/BGR时,PaddleOCR比Tesseract工作得更好

Tesseract PROs:

  1. PaddleOCR在检测空间方面存在严重问题,即使在操作参数之后也是如此,但他们正在下一次升级中修复此问题。Tesseract没有明显的空间问题
  2. Tesseract在处理扫描文档方面更好
  3. 图像分割模式起到了拯救作用,对改善结果有很大帮助
  4. 带有文本的二值化图像的Tesseract结果通常比PaddleOCR更好
  5. Tesseract在检测符号方面要好得多
  6. Tesseract在CPU上更快

简而言之,使用Tesseract非常适合扫描文档,使用PaddleOCR非常适合通用计算机视觉项目。

我使用Tesseract有一段时间了,但它的准确性很差,例如数字4被识别为a,1被识别为],8被识别为&等等,

现在我切换到了桨板OCR,当使用良好的检测/分类和识别模型时,它有很好的识别水平。

在文本识别方面,将Tesseract OCR结果与桨板OCR结果进行比较,桨板OCR胜过Tesseract。

然而,它仍然解决了paddingOCR的一些问题,有时空格缺失,一些单词/数字不能很好地识别,即使图像质量很好。

我已经做了一项研究来解决这个问题,我看到了6种可能的解决方案:

1.后处理桨板OCR的输出:

为了更好地识别您正在处理的不同类型的信息。在研究如何提高桨板OCR结果效率之前,我已经默认实现了这个解决方案。但它已经结束了,变化越来越多,它们将变得难以控制。

我还使用tabula来获取识别错误的文本,只将其用于遇到识别失败的区域。

2.使用拼写更正:

您可以使用拼写更正库(如pyspellchecker或autocorrect)来更正已识别文本中的任何拼写错误。

3.在数据集上越来越多地训练你的桨板OCR模型:这就是我目前正在做的,我正在尝试在自己的数据集上训练桨板OCR,我使用labelimg进行注释来准备数据集,我还开发了一个脚本来自动生成labelimg的注释,然后我快速检查它们以更正识别错误,这种技术使我能够减少准备这些数据集所花费的时间

4.使用语言模型:您可以使用GPT-3或BERT等语言模型对识别的文本进行后处理。这些工具用于自然语言理解和回答,你可以训练它们识别你的文本。这将是下一步,我将使用

5.使用后处理管道:您可以创建一个自定义后处理管道,该管道使用拼写校正库和语言表示模型的组合。

6.您更改OCR:探索其他OCR,目前我不认为要更改paddOCR,因为它有很好的识别水平,但一切皆有可能。

我发现PaddleOCR 2和Tesseract 4之间有比较,但仅适用于英语文本。简要总结:

  1. PaddleOCR在CPU上比Tesseract稍慢,但在GPU支持下,它在标准GPU上比Teseract慢46%
  2. 在没有后期处理的情况下,PaddleOCR主要会出现单词和标点符号之间缺少空格的错误。然而,这些错误可以很容易地纠正。经过后处理后,精度与Tesseract相当(降低1%)
  3. 预先训练的英语模型的文件大小仅为Tesseracts英语列车数据的10%(2MB比23MB)

对于目前似乎是PaddleOCR的主要优先事项的中文文本,情况可能会有所不同。

最近PaddleOCR更新了v3版本,英语空间问题得到了显著改善。我试了一下英语模式,效果很好。

在文档场景中,PaddleOCR可以实现95%以上的准确率。但是Tesseract可能对一些有节奏的人物感到困惑。

特别是PaddleOCR在一些非拉丁语言中的表现​​超出了我的想象。例如阿拉伯语,效果远好于EasyOCR和Tesseract

强烈推荐PaddleOCR

我用它们测试了英语和日语,但有趣的是,PaddleOCR似乎比Tesseract更能识别这两种语言。PaddleOCR的文本检测似乎也更好。然而,根据他们的帖子,PaddleOCR无法很好地处理空间,也有非中国(或日本)用户的投诉。PaddleOCR非常渴望结合作为研究论文发表的最新识别/检测算法,为此我决定使用PaddleOCR。

最新更新