Nagios上服务警报的持续时间不断变化

好吧，在我开始之前，请全面披露：我对Nagios还很陌生（只使用了3周），所以请原谅我在解释中不够简洁。

在我继承的环境中，我有两个冗余的Nagios实例在运行（主实例和辅助实例）。在主服务器上，我添加了一个活动检查，以查看Apache是否在一组选定的远程主机上运行（修改commands.cfg和services.cfg）。不幸的是，它运行不顺利，所以我不得不将更改恢复到以前的配置。

我的问题是：在恢复更改（删除添加的行，启动Nagios备份）后，Nagios的web UI的主要实例显示，某个特定服务会随着持续时间的变化而间歇性地变得关键，例如，当服务显示为OK时，将是4小时，但当它很关键时，它将显示为10天（请参阅此处的示例主机；屏幕截图间隔不到一分钟）。只有当我刷新任何"当前状态"页面，或转到单个主机查看受监控的服务并在那里刷新时，才会发生这种情况。此外，需要注意的是，这是对启用了检查新鲜度的服务的被动检查。

我已经通过CLI从主Nagios服务器进行了手动检查，每次状态都会返回为OK。我认为retention.dat、status.dat、objects.cache或objects.repache中有一个过时的状态，但即使在停止Nagios、删除所述文件、启动备份并重新启动NSCA之后，同样的行为仍然存在。辅助Nagios服务器没有显示这种行为，并且显示了所有主机和服务的正确状态，也没有对其进行任何修改。

如有任何帮助，我们将不胜感激，并提前表示感谢！我已经在Nagios支持论坛上发帖了，但没有用。

编辑：没关系。事实证明，Nagios有两个运行实例，因此具有间歇性。杀死了这两个，再次启动Nagios，它稳定了下来。

相关内容

最新更新

热门标签：