我有一份工作,使用flink获取数据并通过镶木地板将文件格式发送到HDFS,因为我在flink中使用streamFileSink,只有检查点成功,文件才会完成。我想知道checkpoit应该设置多长时间,什么样的参数可以参考
检查点间隔将决定
- 如果发生故障,可能需要重新处理多少数据
- 流式文件接收器写入镶木地板输出文件的频率(这与并行性一起将影响它们的大小(
考虑到您可以承受更长的恢复时间、增加等待这些文件最终确定的其他进程的延迟以及更大的输出文件,请选择任何有意义的选项。
检查点也会给集群带来一些开销。更频繁的检查点操作将影响性能。