小贝子编程

在python中从PDF的特定坐标中提取文本

本文关键字：坐标提取取文本 python 中从 PDF python python-3.x pypdf pdfminer
更新时间 : 2023-09-21
英文 : Extracting text from specific coordinates of a PDF in python

我有一些预先确定的坐标，我想查看PDF以从中提取文本(页面顶部的某个部分(。我一直在尝试使用库pdfminer.six，但处理和提取元素的最小单元似乎是页面。

我想，为了只从页面的一小部分获取文本，当有大量文档需要处理时，浏览和分析整个页面可能会有点低效。

有什么办法吗？或者有没有其他库可以处理这个用例，我可以在其中传递坐标？还是我从根本上误解了这个概念？

谢谢！

您可以使用访问者函数来实现这一点：https://pypdf2.readthedocs.io/en/latest/user/extract-text.html#example-1-忽略-头和脚

最新更新

如何在 JavaScript 中检查"is not defined" eval(var)？
错误NETSDK1152在WinUI3应用程序:发现多个发布输出文件具有相同的相对路径:Microsoft.Web.We
当我在Ubuntu16中使用字符串命令查找一些东西时，我没有得到任何输出
Apache Spark: parse PT2H5M (duration ISO-8601) duration以分钟为单
如何在Parent还没有Id时添加Child
无法记录android应用程序的jmeter脚本
使用AsyncRabbitTemplate::sendAndReceive - RabbitMQ时的应答超时
是自定义文件扩展名吗?
选择远程docker容器(没有kubernetes)后， JVM列表为空
c# TwinCAT数据类型的等效枚举
传递地址时，函数与函数模板的语法限制
如何将flutter riverpod ref.read()函数传递给另一个小部件
Pug/Node.js中的循环优化
Postgresql函数在删除t_providers的行之前作为触发器
在Python中替换字符串中类似模式的正则表达式
Azure DevOps YAML:带有模板变量的If-else条件不起作用
我有麻烦管理我的循环while loo[，反之亦然
我怎么能使最后一行从图在PHP?
无法使用引导折叠折叠
当cell1的值大于cell2的值时显示模态对话框
Vue模板使用JavaScript内置函数
使用python中除"in"以外的其他运算符"match"函数
Powershell Where-Object returning null
在React中通过ClassName Prop扩展样式
如何缩小Firestore字段值
导入谷歌地图模块时反应错误
按顺序切换Class
Blazor语言 - 提交表单不重新加载(没有JS)
Curl impersonate for OkHttp
第一个单元格为空白的行，不复制到另一个工作表

在python中从PDF的特定坐标中提取文本

相关内容

最新更新

热门标签：