如何减少通过spark流写入的检查点文件的数量



如果spark流作业涉及shuffle和有状态处理,那么每个微批很容易生成大量小文件。我们应该在不影响延迟的情况下减少文件数量。

如果使用所有默认配置,一个spark流式微批将生成80k个文件。这将导致hdfs的高qp和延迟。最好更改以下配置以减少检查点文件。

配置spark.sql.streaming.minBatchesToRetain10030spark.sql.streaming.stateStore.minDeltasForSnapshot105spark.sql.shuffle.partitions200取决于微批量大小,50或100

最新更新