如何在不改变spark代码的情况下减少分区的数量



我有一个通过spark-submit执行的代码zip文件,它产生了200个输出文件,现在问题是,它不是zip文件如何减少输出文件的数量?

如果您正在使用配置文件,并且您的代码通过从config file动态获取number of partitions来进行重新分区,那么您可以更改配置文件中的值,而无需更改zip文件。

另一种选择是在spark-submit中使用--conf spark.sql.shuffle.partitions=<number of partitions>,然后您的spark作业将创建指定数量的文件。

NOTE:设置此参数将降低性能,因为它控制整个spark程序的分区数,只有在spark作业未处理数百万条记录时才建议使用。

相关内容

最新更新