小贝子编程

阅读python中类似pdf表格的结构(不是精确的表格)，并将其提取为任何文件格式

本文关键字：表格格式任何提取文件 python pdf 结构阅读 python pdf reader
更新时间 : 2023-09-19
英文 : Read pdf table like structure(not exact table) in python and extract it to any file format

我有一个pdf文件，其中中间的页面充满了测量值。我看起来像一张桌子，但并没有完全与线条对齐。我想以与查找csv或Excel文件相同的方式提取数据。

Pdf文件数据示例：

column1 column2 column3 column4
1       0.05    2.01    3.09   
2       5.05    4.01    6.03
3       7.01    8.02    1.00

pdf数据中没有对齐。就像它没有像表中那样分开的商业符号行。那么，哪个模块更适合使用它将其导出为Excel或csv？

您可以使用textract来实现这一点，但它也取决于文件。

它支持许多类型的文件，包括PDF

import textract
text = textract.process("path/to/file.pdf")

相关内容