什么可能导致 Apache Flink 作业中的屏障对齐持续时间较长?



我在 YARN 上运行我的 Flink 作业,我发现少数子任务遇到较长的对齐持续时间。

什么可能导致此问题?

对于恰好一次的语义,Flink 在接收多个输入流的算子处对齐流,因此大对齐意味着任务管理器比其他节点晚收到一些障碍。

可以在此处找到有关对齐的文档,并且有一些方法可以监视检查点

更具体地说,原因可能是:

  1. 数据倾斜。大多数数据已发送到大对齐持续时间节点。
  2. 垃圾回收:GC 将极大地影响检查点对齐。
  3. 长状态访问,即需要很长时间才能放入或从状态获取。对于 RocksDB,请检查是否存在索引未命中或缓存未命中问题。
  4. 网络缓冲区问题。
  5. 用户代码错误。例如,无限循环或其他问题。

相关内容

  • 没有找到相关文章

最新更新