我正在使用Databricks和Pyspark.
我有笔记本将数据从csv文件加载到dataframe.
dataframe = spark.read.option("inferSchema", "true")
.option("header", "true")
.csv(csv_files)
csv文件可以包含包含json值的列。
csv文件示例:
<表类>名称 年龄 价值 Value2 tbody><<tr>亚历克斯 23 0 3 汤姆25 1 4 杰夫25 "{";"property":"value","property2":"value2"}"> 5 表类>
在这里,您需要使用不同于逗号的分隔符保存.csv文件,因为逗号将json分隔为两个不同的列。你可以这样做:
dataframe.repartition(1).write.mode("overwrite").option("header", "true").option("sep", "|").csv(destination_folder)
您可以转义json中的引号,然后在csv中引用整个json。即使用来转义引号,而不是重复引号。