Openshift Prometheus-如何仅在出现多个cronjob故障时发出警报



我有几个cronjobs在Openshift集群中运行,希望监视故障。然而,我不在乎一次失败,我只想在有两个或多个连续失败的作业时发出警报。只要作业至少每8-12小时完成一次(以4小时为一步运行(,就不应引发任何错误。

我试过使用这里写的指南,也试过修改它,但都无济于事。Medium.com博客文章

谢谢。

我建议使用OpenShift功能"用户空间监控";。使用此功能,您可以根据Prometheus度量(在您的情况下是容器重新启动或作业失败的计数(定义AlertManager规则,然后将这些警报发送到您想要的目的地(例如空闲通道(。

有关此功能的更多详细信息,请访问:OpenShift docs

最新更新