小贝子编程

使用 PyPDF2 或 Pdfminer 从 pdf 中提取 URL、书签、标记和注释

本文关键字：书签注释 URL 提取 PyPDF2 Pdfminer pdf 使用 python python-3.x pdfminer pypdf
更新时间 : 2023-09-13
英文 : Extract URLS,BOOKMARKS, MARKUPs and Comments from a pdf using PyPDF2 or Pdfminer

我试图使用 pypdf2 或 pdfminer 从 pdf 中提取 pdf 网址、评论或 bookmarsk。我看不到/Annots 或 URI，即使 pdf 中存在 url 或 bookmarsk。

使用PyMuPDF，我能够从pdf中提取链接和书签。如何安装 PyMuPDF1. 点安装PyMuPDF有直接的方法可以从PDF中提取书签和超链接。请参阅以下链接中的文档。http://pymupdf.readthedocs.io/en/latest/tutorial/#inspecting-the-links-of-a-pagehttp://pymupdf.readthedocs.io/en/latest/tutorial/#working-with-outlines

如果有人知道如何从pdf中提取注释和标记，请告诉我？

最新更新

如何从Firebase认证获得Twitter用户名- Javascript
在哪里存储凭证和其他机密的Apache Flink SQL?
包含具有相同外键的相关对象的查询集
为什么getter触发器有时在模板中?
使用ansible访问字典文件列表
奇怪的uint8_t转换与OpenCV
C语言在介子中的覆盖报告
如何根据第二个表的条件从一个表中选择值?
为什么在下一个.js " use client "组件顶部给我这个错误？
正在文本文件中搜索字符串，但得到多个结果
如何在链表中使用复制赋值操作符
CycloneDX v2.1.2 -如何使用CycloneDX v2.1.2为.net框架项目生成依赖关系图
如何对一般嵌套的TypedDict进行类型注释?
Web代码只是不工作-文本不断弹出动画后
如何使用VBA根据电子邮件的主题提取Outlook电子邮件数据?
为什么 H2 不能创建此表？
按下按钮后功能并行或同时计算
Gradle无法获取Unity Mediation、Firebase和Google Play Service的依赖项.&
使用两个表在mysql数据库中按国家查找用户
如何从appsettings.json获得日期时间?
配置组到springdoc openapi
用连字符替换laravel路由URL模式中的正斜杠
获胜团队(班级)场景
可以解构来自SWR查询的结果吗?
如何添加已配置的GKE节点池访问范围
Tomcat 10.1 尝试加载自定义标记，但找不到类"javax.servlet.jsp.tagext.Tag"
如何根据RFC 3984从RTP包中提取H264视频?
getElementsByTagName递归地在具有iFrames的页面上
我的文本字段返回 null，因此不知何故该值没有从 onChanged ->变量传递
在redis中，HSET是否影响哈希上现有的TTL ?

使用 PyPDF2 或 Pdfminer 从 pdf 中提取 URL、书签、标记和注释

相关内容

最新更新

热门标签：