小贝子编程

使用camelot将PDF表转换为pandas数据框架

我试图创建一个简单的方法来获取数据从pdf到熊猫数据框架。像这样:

import camelot
import pandas as pd
pdf = camelot.read_pdf("file1.pdf")
print(pdf[0].df)

关键是我正在尝试使用两个不同的文件:文件1和文件2，但对于第二个文件，我无法获得信息。它有更多的列，但我相信这应该不是一个问题。

此外，我可以从文件2中获得表的唯一方法是使用flavor="stream"

文件1的结果

文件2的结果

要正确地从第二个文件中提取表，有必要对背景行进行处理，使用lattice方法的适当参数(process_background)，如下面的代码所示:

import camelot
tables=camelot.read_pdf('file2.pdf', process_background=True)
for table in tables:
print(table.df)

相关内容