Linux / Python实用程序,用于从PDF文件中提取附件(注意:pdftk除外)



我正在开发一个从政府网站下载一些PDF文档的应用程序。这些文档几乎总是附有我需要提取的pdf/xml文件。该应用程序是python的,运行在linux上。但是,为了提取这些文档,我曾经对pdftk进行系统调用以提取文件。我现在正在将此应用程序移动到 Amazon EC2/Amazon AMI。事实证明,Amazon AMI 不支持 pdftk(因为缺乏对 gcj-jre 的支持(。是否有任何替代方法可以从pdf文件中提取附件?是纯python还是linux命令行?PyPDF似乎没有这个。我也找不到任何其他的。

附言 - 我不想离开亚马逊 AMI,因为我已经配置了所有其他东西并且它工作正常。

P.P.S. - 如果有任何强有力的理由(除了没有pdftk(从Amazon AMI转移到Ubuntu/CentOS,我想知道。我正在构建的应用程序最终可能会非常庞大。

pypdf 年在 2022 年收到了大量更新,开发再次变得非常活跃。您正在寻找的功能即将添加:https://github.com/py-pdf/pypdf/pull/1611

相关内容

最新更新