Pyspark将json值写入csv列中的字符串



我正在使用DatabricksPyspark.

我有笔记本将数据从csv文件加载到dataframe.

dataframe = spark.read.option("inferSchema", "true")
.option("header", "true")
.csv(csv_files)

csv文件可以包含包含json值的列。

csv文件示例:

<表类>名称年龄价值Value2tbody><<tr>亚历克斯2303汤姆2514杰夫25"{";"property":"value","property2":"value2"}">5

在这里,您需要使用不同于逗号的分隔符保存.csv文件,因为逗号将json分隔为两个不同的列。你可以这样做:

dataframe.repartition(1).write.mode("overwrite").option("header", "true").option("sep", "|").csv(destination_folder)

您可以转义json中的引号,然后在csv中引用整个json。即使用来转义引号,而不是重复引号。

相关内容

  • 没有找到相关文章

最新更新