从PDF的每一页上的表中提取数据,并将所有数据附加到一个数据帧中



我有一个包含多个页面的pdf,我想从每个页面中提取数据,并将它们连接到一个数据帧中。我已经设法挖掘了Stack和其他资源,创建了下面的代码,它成功地从每个页面提取并打印了表作为数据帧。然而,下一步将是按行连接这些单独的数据帧中的每一个(这样它就是一个数据帧,而不是几个独立的数据帧(。

import pdfplumber
import pandas as pd
pdf_file = "df.pdf"
tables=[]
with pdfplumber.open(pdf_file) as pdf:
pages = pdf.pages
for i,pg in enumerate(pages):
tbl = pages[i].extract_table()
df = pd.DataFrame(tbl)
print(f'{df}')

我一直在想如何将这个循环中的每个数据帧连接起来,而不仅仅是打印出来,我很乐意得到任何帮助。谢谢

想好了如何做到这一点。就快到了,只需要浏览Stack就可以找到如何使用for循环进行附加。谢谢

import pdfplumber
import pandas as pd
#Create df from table on first page to act as the first df:
pdf_file = "data.pdf"
pdf = pdfplumber.open(pdf_file)
pages = pdf.pages
tbl = pages[0].extract_table()
original_df = pd.DataFrame(tbl,columns=["category",0])
#Append data from remaining tables/pages:
tables=[]
with pdfplumber.open(pdf_file) as pdf:
pages = pdf.pages
for i,pg in enumerate(pages):
tbl = pages[i].extract_table()
df = pd.DataFrame(tbl,columns=["category",i+1])
original_df = original_df.merge(df,on='category')

最新更新