谷歌composer环境中的环境健康是什么意思



在google composer环境中有一个选项卡-Monitoring,它有环境概述部分,第一个指标是environment health

我在谷歌文档中读到了这一点:

环境运行状况显示Composer部署运行状况的时间线。绿色状态并不意味着所有Airflow组件都可以运行,DAG也可以运行——它只反映了Composer部署的状态。

但不确定环境出了什么问题,以及发生问题时如何修复。尽管我的环境健康显示不健康,但所有其他指标都是健康的,甚至气流dag也在运行。所以,你能解释一下环境健康上的这种不健康状态意味着什么吗?对气流数据管道的影响是什么?以及如何修复它。

环境运行状况时间线指示您的环境是否能够运行预安装在所有Cloud Composer环境中的非常简单的prober DAG(airflow_monitoring(。如果DAG成功运行,并且度量收集器正确读取了其状态,那么环境的运行状况将显示为绿色,否则将显示为红色。

通常,时间线是环境是否能够运行任务实例的良好指标。但是,如果它显示为红色,并且您没有看到环境中有任何其他问题,则可能是您的环境中存在配置错误或更大的问题。

解决此问题的一些建议是确保airflow_monitoringDAG未暂停,并检查云日志中的airflow-monitoring日志类别。如果airflow_monitoringDAG运行未成功完成,则建议您将其作为正常气流问题进行故障排除,以便在查看Composer特定组件之前将其解开。

环境健康指标取决于名为airflow_monitoring的Composer管理的DAG,该DAG由airflow-monitoringpod定期触发。如果DAG未被删除,并且未在气流UI中报告故障,请检查airflow-monitoring日志,查看是否存在与读取DAG运行状态有关的任何问题。

要检查环境的运行状况,您可以使用以下运行状况status metric: composer.googleapis.com/environment/healthyCloud Composer每5分钟运行一个名为airflow_monitoring的liveness DAG,并按如下方式报告环境运行状况:

当DAG运行成功完成时,运行状况状态为True。如果DAG运行失败,则运行状况状态为False。如果DAG运行未完成,Cloud Composer每5分钟轮询一次DAG的状态,如果超时一小时,则报告False。活跃度DAG存储在dags/文件夹中,并在Airflow web UI中可见活跃度DAG的频率和内容是不可变的,不应修改,因为更改不会持续

您可以通过[1]了解更多详细信息。

[1]https://cloud.google.com/composer/docs/how-to/managing/monitoring-environments#environment

最新更新