我想用spark在hdfs中写一个大数据帧(150 go(。所以我做了:
df.coalesce(10).write.option("header",true).option("delimiter",";").csv("hdfsPath")
我希望得到10个部分的csv,每个部分15 go但我得到了一个包含所有数据的csv文件,我发现合并不起作用。有解决这个问题的办法吗?
coalesce
:的Spark文档后报价
如果请求更大数量的分区,它将保持在当前的分区数量。
您需要按照nehaev的建议使用repartition
。