我使用Python中的Tabula模块。我正在尝试从PDF中输出文本。
我使用的是这个代码:
pdf_read = tabula.read_pdf(
input_path = "Test File.pdf",
pages = start_page_number,
guess=False,
area=(81.735,18.55,391.285,273.61),
relative_area = False,
format="TSV",
output_path="testing_area.tsv"
)
当我去运行我的代码时,它会说";输出文件为空">
知道为什么会这样吗?
编辑:如果我删除了除input_path和页面之外的所有内容,则我的数据将正确读取到pdf_read中,只是不会输出到外部文件中。
此选项有问题。。。嗯…
编辑#2:我弄清楚了为什么区域部分不工作,现在是了,但由于某种原因,我仍然无法输出文件。
编辑#3:我试着研究一下:如何用tabula py将PDF转换为CSV?
但我不断收到一条错误消息:";build_options((获得了一个意外的关键字参数"电子表格">
编辑#4:我使用的是最新版本的tabula.py,它没有电子表格选项。
但是仍然无法输出包含数据的文件。
我不知道上面为什么不起作用,所以pdf_read的输出是一个列表。
我将列表转换为数据帧,然后使用to_csv输出数据帧。
代码如下:
import pandas as pd
df = pd.DataFrame(pdf_read,columns=["column_a"])
output_df = df.to_csv(
"alternative_attempt_1.txt",
header=True,
index=True,
sep='t',
mode='w',
encoding="cp1252"
)