在python中从PDF的特定坐标中提取文本



我有一些预先确定的坐标,我想查看PDF以从中提取文本(页面顶部的某个部分(。我一直在尝试使用库pdfminer.six,但处理和提取元素的最小单元似乎是页面。

我想,为了只从页面的一小部分获取文本,当有大量文档需要处理时,浏览和分析整个页面可能会有点低效。

有什么办法吗?或者有没有其他库可以处理这个用例,我可以在其中传递坐标?还是我从根本上误解了这个概念?

谢谢!

您可以使用访问者函数来实现这一点:https://pypdf2.readthedocs.io/en/latest/user/extract-text.html#example-1-忽略-头和脚

最新更新