Apache Flink的关键健康指标

我正试图弄清楚Apache Flink的关键健康指标是什么。Flink文档提供了大量的指标列表，很难找出重要的指标。

一些建议：

如果您使用的是Kafka，那么Kafka客户端度量将被转发到Flink的度量系统中。监测消费者滞后会让你知道你的工作是否无法跟上数据的流入。

如果你的工作没有取得进展，查看currentLowWatermark可以帮助你确定哪些任务阻碍了进度。

关注检查点是明智的。lastCheckpointDuration、lastCheckpointSize和numberOf{Completed,Failed,InProgress}Checkpoints在这里是有用的。

uptime和downtime可以帮助您跟踪工作在恢复过程中花费的时间，而不是实际运行的时间。

社区最近一直在讨论如何更好地检测背压。您可以在开发邮件列表档案中找到该讨论。

相关内容