Tesseract OCR给出了未对准的输出文本



我有这样的图像

SOME STUFF HERE
                     DEPARTMENT OF PATHOLOGY
Name        : MR. V. HUGO                   Age/Sex     : 31 Y(s)/Male
Bill Date   : 28-Apr-2016 08:48 AM          UMR No      : ODC61995
Sample Date : 28-Apr-2016 09:38 AM          Bill No     : BIL130579
Report Date : 28-Apr-2016 04:21 PM          Result No   : RES378704

AND SOME MORE STUFF HERE

上面的图像是长度大于宽度的矩形。我将以上图像裁剪成我需要阅读的图像部分,看起来像

Name        : MR. V. HUGO                   Age/Sex     : 31 Y(s)/Male
Bill Date   : 28-Apr-2016 08:48 AM          UMR No      : ODC61995
Sample Date : 28-Apr-2016 09:38 AM          Bill No     : BIL130579
Report Date : 28-Apr-2016 04:21 PM          Result No   : RES378704

在裁剪的图像中,宽度大于长度。但是我得到的输出是未对准

Name
Bill Date
Sample Date
Report Date
MR. V. HUGO
28-Apr-2016 08:48 AM
28-Apr-2016 09:38 AM
28-Apr-2016 04:21 PM
Age/Sex
UMR No
Bill No
Result No
31 Y(s)/Male
ODC61995
BIL130579
RES378704

有人可以解释为什么会发生这种情况吗?如果没有裁剪,输出就可以正确对齐,但错误是更多。我的想法是仅在图像的相关部分运行Tesseract OCR。我有和没有Python包装器的结果。

P.S。 - 当我对图像应用侵蚀/扩张时,我的输出也与上述类似,但在将其传递给Tesseract之前没有裁剪。

问题是由于Tesseract完成的自动页面分割。将您的页面细分模式值保持为4或psm_single_column。

tesseract example.jpg out -l eng -psm 4

最新更新