Python表格库-输出文件为空



我使用Python中的Tabula模块。我正在尝试从PDF中输出文本。

我使用的是这个代码:

pdf_read = tabula.read_pdf(
input_path = "Test File.pdf",
pages = start_page_number,
guess=False,
area=(81.735,18.55,391.285,273.61),
relative_area = False,
format="TSV",
output_path="testing_area.tsv"
)

当我去运行我的代码时,它会说";输出文件为空">

知道为什么会这样吗?

编辑:如果我删除了除input_path和页面之外的所有内容,则我的数据将正确读取到pdf_read中,只是不会输出到外部文件中。

此选项有问题。。。嗯…

编辑#2:我弄清楚了为什么区域部分不工作,现在是了,但由于某种原因,我仍然无法输出文件。

编辑#3:我试着研究一下:如何用tabula py将PDF转换为CSV?

但我不断收到一条错误消息:";build_options((获得了一个意外的关键字参数"电子表格">

编辑#4:我使用的是最新版本的tabula.py,它没有电子表格选项。

但是仍然无法输出包含数据的文件。

我不知道上面为什么不起作用,所以pdf_read的输出是一个列表。

我将列表转换为数据帧,然后使用to_csv输出数据帧。

代码如下:

import pandas as pd
df = pd.DataFrame(pdf_read,columns=["column_a"])
output_df = df.to_csv(
"alternative_attempt_1.txt",
header=True,
index=True,
sep='t',
mode='w',
encoding="cp1252"
)

相关内容

  • 没有找到相关文章

最新更新