如何在repo中将数据集转换为字典.我在铸造厂使用pyspark



我创建了一个要同步到数据集的融合表数据。现在,我想使用该数据集在repo中创建一个字典。我在回购中使用pyspark。稍后,我想使用该字典进行传递,以便它像在Foundry中一样填充描述。Foundry中是否有可以自动填充列描述的工具?如果是,它叫什么?。

如果有人能帮助我在repo中使用pyspark从数据集创建字典,那就太好了。

以下代码将把pyspark数据帧转换为字典列表:

fusion_rows = map(lambda row: row.asDict(), fusion_df.collect())

然而,在您的特定情况下,您可以使用以下片段:

col_descriptions = {row["column_name"]: row["description"] for row in fusion_df.collect()}
my_output.write_dataframe(
my_input.dataframe(),
column_descriptions=col_descriptions
)

假设你的Fusion表单是这样的:

+------------+------------------+
| column_name|       description|
+------------+------------------+
|       col_A| description for A|
|       col_B| description for B|
+------------+------------------+

最新更新