我正在使用pyspark将数据写入hdfs。我有两栏id和date。日期格式为年月日。
有没有办法我可以创建一个名称为日期的文件夹,在里面我可以有csv文件。
示例:
hdfs path
-> 11-01-2020
-> csv file
-> 01-01-2021
-> csv file
这个日期将是我在df中选择的列。
我现在正在做的是:
result = df.selectExpr("id as tid",
"date")
result.repartition(1)
.write
.mode ("overwrite")
.format("com.databricks.spark.csv")
.option("header", "true")
.save("hdfs path")
它会在此路径中创建零件文件。
您可以指定要按日期分区的输出:
result.repartition("date")
.write
.partitionBy("date")
.mode ("overwrite")
.format("com.databricks.spark.csv")
.option("header", "true")
.save("hdfs path")
它应该为您提供类似date=01-01-2021
的文件夹名称。