我正在尝试使用Tabula从pdf中提取表信息并将其转换为熊猫数据帧。我一直在按照本教程中的步骤操作:
https://aegis4048.github.io/parse-pdf-files-while-retaining-structure-with-tabula-py
当我尝试使用以下代码(直接取自教程(将远程 PDF 加载到我的 jupyter 笔记本中时:
import tabula
df2 = tabula.read_pdf("https://github.com/tabulapdf/tabula-java/raw/master/src/test/resources/technology/tabula/arabic.pdf")
我收到错误:
属性错误:"列表"对象没有属性"读取">
我尝试阅读本地保存到我的机器的pdf,但出现相同的错误。我相信我已经成功安装了 Java 并正确配置了环境变量,并且我有最新版本的 Tabula。
链接到我的jupyter笔记本的屏幕截图:
https://www.dropbox.com/s/y44mfzuclihfdau/S_O_Capture_1.PNG?dl=0
谢谢。
确保您安装了正确的tabula
软件包!
如果你运行pip3 install tabula
,那么你安装了一个冒名顶替者!
运行pip3 uninstall tabula
将其删除,然后运行:
pip3 install tabula-py
以安装正确的软件包。