是否可以从数据集生成pdf并增量保存到铸造厂



FPDF是一个库,可以将panda数据帧转换为格式良好的pdf报告。铸造厂代码库或代码工作簿中是否有从spark或pandas数据帧向铸造厂写入pdf文件的功能?

我有一个要求,从一个过滤成几行的铸造数据集创建一个格式良好的pdf报告。

在用户的帮助下https://stackoverflow.com/users/4922673/jackfischer我能够满足要求,然而,代码会覆盖现有的文件,以及如何在每次运行代码时使用新文件增量更新数据集。我正在使用代码工作簿模板功能将参数传递给逻辑,每次传递新参数时,逻辑如何创建新文件

示例:

  1. samplefile.txt
  2. samplefile2.txt

虽然我不太熟悉FPDF库,但Foundry支持从转换或代码工作簿中的数据集生成文件。

要从数据集创建一个基于Pandas的PDF,请将数据集转换为Pandas,并从Foundry获得输出文件句柄,例如。在代码工作簿中,

def pdf_dataset(input_df):
output = Transforms.get_output()
pd = input_df.toPandas()
output_fs = output.filesystem()
with output_fs.open(output_file_path, "wb") as f:
# use FDPF as needed

或者,您可以通过Spark为每行并行创建一个PDF。通过结构化数据,生成每个PDF所需的参数在行中并置,可以最容易地实现这一点。从那里,您可以运行Python函数来生成PDF,并将其从Python内存中写入目标数据集。

在代码工作簿中,这类似于

def pdf_dataset(input_df):
output = Transforms.get_output()
def generate_pdf(row):
output_fs = output.filesystem()
with output_fs.open(output_file_path, "wb") as f:
# use FDPF as needed

input_df.rdd.foreach(generate_pdf)