从pdf表中提取单元格图像



我需要识别表中的书面文本并在json中解析它。我用python来做。我真的不明白如何从pdf格式的表格中提取文本的照片。因为通常的表识别器是不合适的,因为书面文本是不被识别的。因此,我需要以某种方式从表中切割细胞,如何做到这一点?

如果你想提取表和它们的单元格,你可能需要一个这样的表提取器;1

然后,在提取表及其单元格及其坐标之后,您可以选择这些像素。例如;img (x1, x2, y1, y2)

在获得单元格的像素后,您可以使用Tesseract OCR引擎来理解以图像像素书写的文本。

这些是你需要遵循的一般步骤,如果你的问题更精确,我可以帮助你更多。

PDF格式没有'表格'和'单元格'。将PDF转换为PNG格式或其他栅格格式,并使用OCR,如BlackCode。

最新更新