小贝子编程

使用tabula从网页中提取pdf表格时出现问题(Python中的web Scratching)

本文关键字：问题 Python 中的 Scratching web 网页 tabula 提取表格 pdf 使用 python web-scraping tabulate tabula-py
更新时间 : 2023-09-21
英文 : Problem extracting table from pdf from web page with tabula (Web Scraping in Python)

当我从页面中提取表时，我能够毫无问题地提取，但数据是无序的。一列中的数据显示为另一列的标题，例如，我如何解决此问题？我的代码：

from tabula import read_pdf
url='https://becas.osinergmin.gob.pe/seccion/centro_documental/hidrocarburos/SCOP/SCOP-DOCS/2022/01-Demanda-Nacional-Combustibles-Liquidos-Enero-2022.pdf'
df=read_pdf(url, pages=1)
df

提前谢谢。

我找到了解决方案：使用tabula程序查找坐标。我们只需要上传程序：https://tabula.technology/并向下加载JSON文件以查看坐标。我们需要把它放在"；区域"；read_pdf函数的自变量按以下顺序排列：顶部(y1(、左侧(x1(、底部(y2(和右侧(x2(距离。

现在我已经为所有具有相同坐标的pdf创建了一个循环，它运行得很好。

使用tabula从网页中提取pdf表格时出现问题(Python中的web Scratching)

相关内容

最新更新

热门标签：