从pdf表中提取单元格图像

我需要识别表中的书面文本并在json中解析它。我用python来做。我真的不明白如何从pdf格式的表格中提取文本的照片。因为通常的表识别器是不合适的，因为书面文本是不被识别的。因此，我需要以某种方式从表中切割细胞，如何做到这一点?

如果你想提取表和它们的单元格，你可能需要一个这样的表提取器;1

然后，在提取表及其单元格及其坐标之后，您可以选择这些像素。例如;img (x1, x2, y1, y2)

在获得单元格的像素后，您可以使用Tesseract OCR引擎来理解以图像像素书写的文本。

这些是你需要遵循的一般步骤，如果你的问题更精确，我可以帮助你更多。

PDF格式没有'表格'和'单元格'。将PDF转换为PNG格式或其他栅格格式，并使用OCR，如BlackCode。

相关内容