小贝子编程

在 Spark 中使用分区保存 CSV 文件

本文关键字：保存 CSV 文件分区 Spark csv apache-spark apache-spark-sql spark-csv
更新时间 : 2023-08-29
英文 : Saving CSV file with partitionBy in Spark

我正在尝试将数据帧另存为按列分区的 CSV 文件。

val schema = new StructType(
      Array(
        StructField("ID",IntegerType,true),
        StructField("State",StringType,true),
        StructField("Age",IntegerType,true)
      )
)
val df = sqlContext.read.format("com.databricks.spark.csv")
        .options(Map("path" -> filePath).schema(schema).load()
df.write.partitionBy("State").format("com.databricks.spark.csv").save(outputPath)

但输出不会与任何分区信息一起保存。看起来分区被完全忽略了。没有错误。如果我尝试使用镶木地板格式，它会起作用。

df.write.partitionBy("State").parquet(outputPath)

我在这里错过了什么？

partitionBy支持必须作为给定数据源的一部分实现，目前Spark CSV不支持（v1.3）。请参阅：https://github.com/databricks/spark-csv/issues/123

在 Spark 中使用分区保存 CSV 文件

相关内容

最新更新

热门标签：