我在 YARN 上运行我的 Flink 作业,我发现少数子任务遇到较长的对齐持续时间。
什么可能导致此问题?
对于恰好一次的语义,Flink 在接收多个输入流的算子处对齐流,因此大对齐意味着任务管理器比其他节点晚收到一些障碍。
可以在此处找到有关对齐的文档,并且有一些方法可以监视检查点
更具体地说,原因可能是:
- 数据倾斜。大多数数据已发送到大对齐持续时间节点。
- 垃圾回收:GC 将极大地影响检查点对齐。
- 长状态访问,即需要很长时间才能放入或从状态获取。对于 RocksDB,请检查是否存在索引未命中或缓存未命中问题。
- 网络缓冲区问题。
- 用户代码错误。例如,无限循环或其他问题。