我有几个cronjobs在Openshift集群中运行,希望监视故障。然而,我不在乎一次失败,我只想在有两个或多个连续失败的作业时发出警报。只要作业至少每8-12小时完成一次(以4小时为一步运行(,就不应引发任何错误。
我试过使用这里写的指南,也试过修改它,但都无济于事。Medium.com博客文章
谢谢。
我建议使用OpenShift功能"用户空间监控";。使用此功能,您可以根据Prometheus度量(在您的情况下是容器重新启动或作业失败的计数(定义AlertManager规则,然后将这些警报发送到您想要的目的地(例如空闲通道(。
有关此功能的更多详细信息,请访问:OpenShift docs