我正试图弄清楚Apache Flink的关键健康指标是什么。Flink文档提供了大量的指标列表,很难找出重要的指标。
一些建议:
如果您使用的是Kafka,那么Kafka客户端度量将被转发到Flink的度量系统中。监测消费者滞后会让你知道你的工作是否无法跟上数据的流入。
如果你的工作没有取得进展,查看currentLowWatermark
可以帮助你确定哪些任务阻碍了进度。
关注检查点是明智的。lastCheckpointDuration
、lastCheckpointSize
和numberOf{Completed,Failed,InProgress}Checkpoints
在这里是有用的。
uptime
和downtime
可以帮助您跟踪工作在恢复过程中花费的时间,而不是实际运行的时间。
社区最近一直在讨论如何更好地检测背压。您可以在开发邮件列表档案中找到该讨论。