小贝子编程

什么可能导致 Apache Flink 作业中的屏障对齐持续时间较长?

本文关键字：对齐持续时间作业 Flink Apache apache-flink flink-streaming
更新时间 : 2023-09-16
英文 : What may cause long barrier alignment durations in Apache Flink jobs?

我在 YARN 上运行我的 Flink 作业，我发现少数子任务遇到较长的对齐持续时间。

什么可能导致此问题？

对于恰好一次的语义，Flink 在接收多个输入流的算子处对齐流，因此大对齐意味着任务管理器比其他节点晚收到一些障碍。

可以在此处找到有关对齐的文档，并且有一些方法可以监视检查点

更具体地说，原因可能是：

数据倾斜。大多数数据已发送到大对齐持续时间节点。
垃圾回收：GC 将极大地影响检查点对齐。
长状态访问，即需要很长时间才能放入或从状态获取。对于 RocksDB，请检查是否存在索引未命中或缓存未命中问题。
网络缓冲区问题。
用户代码错误。例如，无限循环或其他问题。

相关内容

没有找到相关文章

最新更新