小贝子编程

将pyspark dataframe写入CSV，不带引号

本文关键字：CSV pyspark dataframe 写入 python dataframe apache-spark pyspark apache-spark-2.3
更新时间 : 2023-09-22
英文 : write pyspark dataframe to csv with out outer quotes

我有一个数据框架，如下所示只有一列。我使用pyspark 2.3版本来写入csv。

18391860-bb33-11e6-a12d-0050569d8a5c,48,24,44,31,47,162,227,0,37,30,28
18391310-bc74-11e5-9049-005056b996a7,37,0,48,25,72,28,24,44,31,52,27,30,4

默认情况下，代码的输出是

df.select('RESULT').write.csv(path)

"18391860-bb33-11e6-a12d-0050569d8a5c,48,24,44,31,47,162,227,0,37,30,28"
"18391310-bc74-11e5-9049-005056b996a7,37,0,48,25,72,28,24,44,31,52,27,30,4"

如何删除外部引号?我已经尝试了option('quote'， 'false')和option('quote'，None)，但都不起作用。

您可以尝试使用|分隔符进行书写。默认为,，它与包含逗号的内容冲突。

df.select('RESULT').write.csv(path, sep="|")

您也可以使用spark.write.text:

df.select('RESULT').write.text(path)

相关内容