小贝子编程

Pyspark将json值写入csv列中的字符串

我正在使用Databricks和Pyspark.

我有笔记本将数据从csv文件加载到dataframe.

dataframe = spark.read.option("inferSchema", "true")
.option("header", "true")
.csv(csv_files)

csv文件可以包含包含json值的列。

csv文件示例:

<表类>名称年龄价值Value2tbody><<tr>亚历克斯2303汤姆2514杰夫25"{";"property":"value","property2":"value2"}">5

在这里，您需要使用不同于逗号的分隔符保存.csv文件，因为逗号将json分隔为两个不同的列。你可以这样做:

dataframe.repartition(1).write.mode("overwrite").option("header", "true").option("sep", "|").csv(destination_folder)

您可以转义json中的引号，然后在csv中引用整个json。即使用来转义引号，而不是重复引号。

相关内容