使用spark将一个大csv拆分为多个csv



我想用spark在hdfs中写一个大数据帧(150 go(。所以我做了:

df.coalesce(10).write.option("header",true).option("delimiter",";").csv("hdfsPath")

我希望得到10个部分的csv,每个部分15 go但我得到了一个包含所有数据的csv文件,我发现合并不起作用。有解决这个问题的办法吗?

coalesce:的Spark文档后报价

如果请求更大数量的分区,它将保持在当前的分区数量。

您需要按照nehaev的建议使用repartition

相关内容

  • 没有找到相关文章

最新更新