Apache Flink的关键健康指标



我正试图弄清楚Apache Flink的关键健康指标是什么。Flink文档提供了大量的指标列表,很难找出重要的指标。

一些建议:

如果您使用的是Kafka,那么Kafka客户端度量将被转发到Flink的度量系统中。监测消费者滞后会让你知道你的工作是否无法跟上数据的流入。

如果你的工作没有取得进展,查看currentLowWatermark可以帮助你确定哪些任务阻碍了进度。

关注检查点是明智的。lastCheckpointDurationlastCheckpointSizenumberOf{Completed,Failed,InProgress}Checkpoints在这里是有用的。

uptimedowntime可以帮助您跟踪工作在恢复过程中花费的时间,而不是实际运行的时间。

社区最近一直在讨论如何更好地检测背压。您可以在开发邮件列表档案中找到该讨论。

相关内容

  • 没有找到相关文章

最新更新