按照spark中的列名写入csv文件



我正在使用pyspark将数据写入hdfs。我有两栏id和date。日期格式为年月日。

有没有办法我可以创建一个名称为日期的文件夹,在里面我可以有csv文件。

示例:

hdfs path
-> 11-01-2020
-> csv file
-> 01-01-2021
-> csv file

这个日期将是我在df中选择的列。

我现在正在做的是:

result = df.selectExpr("id as tid",
"date")

result.repartition(1)
.write
.mode ("overwrite")
.format("com.databricks.spark.csv")
.option("header", "true")
.save("hdfs path")

它会在此路径中创建零件文件。

您可以指定要按日期分区的输出:

result.repartition("date")
.write
.partitionBy("date")
.mode ("overwrite")
.format("com.databricks.spark.csv")
.option("header", "true")
.save("hdfs path")

它应该为您提供类似date=01-01-2021的文件夹名称。

相关内容

  • 没有找到相关文章

最新更新