小贝子编程

在不更改布局和格式的情况下从python中的pdf中提取文本的最佳方法是什么？

本文关键字：提取 pdf 取文本最佳是什么方法中的布局情况下格式 python pdf text pypdf pdfminer pdftotext
更新时间 : 2023-09-15
英文 : What's the best way to extract text from pdf in python without changing the layout and format?

我想要pdf中具有确切格式和布局的文本。
如果pdf到文本不是直接选择，是否可以做pdf -> xml ->文本？
我已经尝试过PyPDF2，pdfminer和pdftotxt。即使我尝试使用AWS提取，但布局不正确。
基本上，如果我能从从pdf中提取的文本中构建句子，那就足够了。
我使用了Zamzar API，它提供了精确的输出，但它们非常昂贵。有什么可能的解决方案吗？

如果您希望保留PDF的结构，但不保留字体，颜色，大小等，请尝试pdftables_api库。这应该包含 PDF 的布局。将PDF转换为CSV作为CSV文件只是一个逗号分隔的文本文件。

如果你想保留字体、颜色等，Zamzar API可能是你最好的选择。

在不更改布局和格式的情况下从python中的pdf中提取文本的最佳方法是什么？

相关内容

最新更新

热门标签：