小贝子编程

按照spark中的列名写入csv文件

本文关键字：csv 文件 spark 按照 csv apache-spark pyspark apache-spark-sql
更新时间 : 2023-09-21
英文 : Write csv file as per column name in spark

我正在使用pyspark将数据写入hdfs。我有两栏id和date。日期格式为年月日。

有没有办法我可以创建一个名称为日期的文件夹，在里面我可以有csv文件。

示例：

hdfs path
-> 11-01-2020
-> csv file
-> 01-01-2021
-> csv file

这个日期将是我在df中选择的列。

我现在正在做的是：

result = df.selectExpr("id as tid",
"date")

result.repartition(1)
.write
.mode ("overwrite")
.format("com.databricks.spark.csv")
.option("header", "true")
.save("hdfs path")

它会在此路径中创建零件文件。

您可以指定要按日期分区的输出：

result.repartition("date")
.write
.partitionBy("date")
.mode ("overwrite")
.format("com.databricks.spark.csv")
.option("header", "true")
.save("hdfs path")

它应该为您提供类似date=01-01-2021的文件夹名称。

按照spark中的列名写入csv文件

相关内容

最新更新

热门标签：