在不更改布局和格式的情况下从python中的pdf中提取文本的最佳方法是什么?



我想要pdf中具有确切格式和布局的文本。
如果pdf到文本不是直接选择,是否可以做pdf -> xml ->文本?
我已经尝试过PyPDF2,pdfminer和pdftotxt。即使我尝试使用AWS提取,但布局不正确。
基本上,如果我能从从pdf中提取的文本中构建句子,那就足够了。
我使用了Zamzar API,它提供了精确的输出,但它们非常昂贵。 有什么可能的解决方案吗?

如果您希望保留PDF的结构,但不保留字体,颜色,大小等,请尝试pdftables_api库。这应该包含 PDF 的布局。将PDF转换为CSV作为CSV文件只是一个逗号分隔的文本文件。

如果你想保留字体、颜色等,Zamzar API可能是你最好的选择。

相关内容

  • 没有找到相关文章

最新更新