使用tabula从网页中提取pdf表格时出现问题(Python中的web Scratching)



当我从页面中提取表时,我能够毫无问题地提取,但数据是无序的。一列中的数据显示为另一列的标题,例如,我如何解决此问题?我的代码:

from tabula import read_pdf
url='https://becas.osinergmin.gob.pe/seccion/centro_documental/hidrocarburos/SCOP/SCOP-DOCS/2022/01-Demanda-Nacional-Combustibles-Liquidos-Enero-2022.pdf'
df=read_pdf(url, pages=1)
df

提前谢谢。

我找到了解决方案:使用tabula程序查找坐标。我们只需要上传程序:https://tabula.technology/并向下加载JSON文件以查看坐标。我们需要把它放在";区域";read_pdf函数的自变量按以下顺序排列:顶部(y1(、左侧(x1(、底部(y2(和右侧(x2(距离。

现在我已经为所有具有相同坐标的pdf创建了一个循环,它运行得很好。

最新更新