Nagios上服务警报的持续时间不断变化



好吧,在我开始之前,请全面披露:我对Nagios还很陌生(只使用了3周),所以请原谅我在解释中不够简洁。

在我继承的环境中,我有两个冗余的Nagios实例在运行(主实例和辅助实例)。在主服务器上,我添加了一个活动检查,以查看Apache是否在一组选定的远程主机上运行(修改commands.cfg和services.cfg)。不幸的是,它运行不顺利,所以我不得不将更改恢复到以前的配置。

我的问题是:在恢复更改(删除添加的行,启动Nagios备份)后,Nagios的web UI的主要实例显示,某个特定服务会随着持续时间的变化而间歇性地变得关键,例如,当服务显示为OK时,将是4小时,但当它很关键时,它将显示为10天(请参阅此处的示例主机;屏幕截图间隔不到一分钟)。只有当我刷新任何"当前状态"页面,或转到单个主机查看受监控的服务并在那里刷新时,才会发生这种情况。此外,需要注意的是,这是对启用了检查新鲜度的服务的被动检查。

我已经通过CLI从主Nagios服务器进行了手动检查,每次状态都会返回为OK。我认为retention.dat、status.dat、objects.cache或objects.repache中有一个过时的状态,但即使在停止Nagios、删除所述文件、启动备份并重新启动NSCA之后,同样的行为仍然存在。辅助Nagios服务器没有显示这种行为,并且显示了所有主机和服务的正确状态,也没有对其进行任何修改。

如有任何帮助,我们将不胜感激,并提前表示感谢!我已经在Nagios支持论坛上发帖了,但没有用。

编辑:没关系。事实证明,Nagios有两个运行实例,因此具有间歇性。杀死了这两个,再次启动Nagios,它稳定了下来。

最新更新