小贝子编程

Openshift Prometheus-如何仅在出现多个cronjob故障时发出警报

本文关键字：故障 cronjob Prometheus- 何仅 Openshift kubernetes cron openshift prometheus monitoring
更新时间 : 2023-09-21
英文 : Openshift Prometheus - How do I alert only when there are multiple cronjob failures

我有几个cronjobs在Openshift集群中运行，希望监视故障。然而，我不在乎一次失败，我只想在有两个或多个连续失败的作业时发出警报。只要作业至少每8-12小时完成一次(以4小时为一步运行(，就不应引发任何错误。

我试过使用这里写的指南，也试过修改它，但都无济于事。Medium.com博客文章

谢谢。

我建议使用OpenShift功能"用户空间监控"；。使用此功能，您可以根据Prometheus度量(在您的情况下是容器重新启动或作业失败的计数(定义AlertManager规则，然后将这些警报发送到您想要的目的地(例如空闲通道(。

有关此功能的更多详细信息，请访问：OpenShift docs

相关内容