Python表格库-输出文件为空

我使用Python中的Tabula模块。我正在尝试从PDF中输出文本。

我使用的是这个代码：

pdf_read = tabula.read_pdf(
input_path = "Test File.pdf",
pages = start_page_number,
guess=False,
area=(81.735,18.55,391.285,273.61),
relative_area = False,
format="TSV",
output_path="testing_area.tsv"
)

当我去运行我的代码时，它会说"；输出文件为空">

知道为什么会这样吗？

编辑：如果我删除了除input_path和页面之外的所有内容，则我的数据将正确读取到pdf_read中，只是不会输出到外部文件中。

此选项有问题。。。嗯…

编辑#2：我弄清楚了为什么区域部分不工作，现在是了，但由于某种原因，我仍然无法输出文件。

编辑#3：我试着研究一下：如何用tabula py将PDF转换为CSV？

但我不断收到一条错误消息："；build_options((获得了一个意外的关键字参数"电子表格">

编辑#4：我使用的是最新版本的tabula.py，它没有电子表格选项。

但是仍然无法输出包含数据的文件。

我不知道上面为什么不起作用，所以pdf_read的输出是一个列表。

我将列表转换为数据帧，然后使用to_csv输出数据帧。

代码如下：

import pandas as pd
df = pd.DataFrame(pdf_read,columns=["column_a"])
output_df = df.to_csv(
"alternative_attempt_1.txt",
header=True,
index=True,
sep='t',
mode='w',
encoding="cp1252"
)

相关内容

最新更新

热门标签：