100 30 10 5 200 取决于微批量大小,50或100
如果spark流作业涉及shuffle和有状态处理,那么每个微批很容易生成大量小文件。我们应该在不影响延迟的情况下减少文件数量。
如果使用所有默认配置,一个spark流式微批将生成80k个文件。这将导致hdfs的高qp和延迟。最好更改以下配置以减少检查点文件。
配置spark.sql.streaming.minBatchesToRetain
spark.sql.streaming.stateStore.minDeltasForSnapshot
spark.sql.shuffle.partitions