是否可以从数据集生成pdf并增量保存到铸造厂

FPDF是一个库，可以将panda数据帧转换为格式良好的pdf报告。铸造厂代码库或代码工作簿中是否有从spark或pandas数据帧向铸造厂写入pdf文件的功能？

我有一个要求，从一个过滤成几行的铸造数据集创建一个格式良好的pdf报告。

在用户的帮助下https://stackoverflow.com/users/4922673/jackfischer我能够满足要求，然而，代码会覆盖现有的文件，以及如何在每次运行代码时使用新文件增量更新数据集。我正在使用代码工作簿模板功能将参数传递给逻辑，每次传递新参数时，逻辑如何创建新文件

示例：

samplefile.txt
samplefile2.txt

虽然我不太熟悉FPDF库，但Foundry支持从转换或代码工作簿中的数据集生成文件。

要从数据集创建一个基于Pandas的PDF，请将数据集转换为Pandas，并从Foundry获得输出文件句柄，例如。在代码工作簿中，

def pdf_dataset(input_df):
output = Transforms.get_output()
pd = input_df.toPandas()
output_fs = output.filesystem()
with output_fs.open(output_file_path, "wb") as f:
# use FDPF as needed

或者，您可以通过Spark为每行并行创建一个PDF。通过结构化数据，生成每个PDF所需的参数在行中并置，可以最容易地实现这一点。从那里，您可以运行Python函数来生成PDF，并将其从Python内存中写入目标数据集。

在代码工作簿中，这类似于

def pdf_dataset(input_df):
output = Transforms.get_output()
def generate_pdf(row):
output_fs = output.filesystem()
with output_fs.open(output_file_path, "wb") as f:
# use FDPF as needed

input_df.rdd.foreach(generate_pdf)

相关内容

最新更新

热门标签：