使用camelot将PDF表转换为pandas数据框架



我试图创建一个简单的方法来获取数据从pdf到熊猫数据框架。像这样:

import camelot
import pandas as pd
pdf = camelot.read_pdf("file1.pdf")
print(pdf[0].df)

关键是我正在尝试使用两个不同的文件:文件1和文件2,但对于第二个文件,我无法获得信息。它有更多的列,但我相信这应该不是一个问题。

此外,我可以从文件2中获得表的唯一方法是使用flavor="stream"

文件1的结果

文件2的结果

要正确地从第二个文件中提取表,有必要对背景行进行处理,使用lattice方法的适当参数(process_background),如下面的代码所示:

import camelot
tables=camelot.read_pdf('file2.pdf', process_background=True)
for table in tables:
print(table.df)

最新更新