Spark CSV 2.1 File Names



我正在尝试使用新的 spark 2.1 csv 选项将数据帧保存到 CSV 中

df.select(myColumns: _*).write
.mode(SaveMode.Overwrite)
.option("header", "true")
.option("codec", "org.apache.hadoop.io.compress.GzipCodec")
.csv(absolutePath)

一切正常,我不介意使用part-000XX前缀 但现在似乎添加了一些 UUID 作为后缀

i.e
part-00032-10309cf5-a373-4233-8b28-9e10ed279d2b.csv.gz ==> part-00032.csv.gz

任何人都知道如何删除此文件扩展并仅保留部分 000XX 会议

谢谢

您可以通过覆盖配置选项"spark.sql.sources.writeJobUUID"来删除UUID:

https://github.com/apache/spark/commit/0818fdec3733ec5c0a9caa48a9c0f2cd25f84d13#diff-c69b9e667e93b7e4693812cc72abb65fR75

不幸的是,此解决方案不会完全反映旧的saveAsTextFile样式(即.part-00000),但可以使输出文件名更加理智,例如part-00000-output.csv.gz其中"output"是您传递给spark.sql.sources.writeJobUUID的值。"-"会自动附加

SPARK-8406是相关的Spark问题,这是实际的拉取请求:https://github.com/apache/spark/pull/6864

相关内容

  • 没有找到相关文章

最新更新