我试图创建一个简单的方法来获取数据从pdf到熊猫数据框架。像这样:
import camelot
import pandas as pd
pdf = camelot.read_pdf("file1.pdf")
print(pdf[0].df)
关键是我正在尝试使用两个不同的文件:文件1和文件2,但对于第二个文件,我无法获得信息。它有更多的列,但我相信这应该不是一个问题。
此外,我可以从文件2中获得表的唯一方法是使用flavor="stream"
文件1的结果
文件2的结果
要正确地从第二个文件中提取表,有必要对背景行进行处理,使用lattice方法的适当参数(process_background),如下面的代码所示:
import camelot
tables=camelot.read_pdf('file2.pdf', process_background=True)
for table in tables:
print(table.df)