Nagios条件检查

  • 本文关键字:条件 Nagios nagios
  • 更新时间 :
  • 英文 :


目前我正在监视我的目标windows主机,以获取一系列服务(CPU、内存、磁盘、ssl证书、http等)。我使用nsclient作为nagios服务器将与之对话的客户端。

我的问题是,我每24小时向这些主机部署三次。部署过程要求主机重新启动。每当我的主机重新启动时,我都会收到每个服务的nagios警报。这意味着大量的警报,这使得识别真正的问题变得困难。

理想情况下,我想这样:

  • 如果主机已关闭,请不要为其余服务发送任何警报
  • 如果主机正在重新启动,这意味着nsclient不可访问。我只想收到一个警报(例如CPU不可访问),并将其他一切静音几分钟,这样主机就可以完成引导,nsclient就可以使用了

实现这一点将使我在每次部署中每个主机都能收到一封电子邮件。这比所有东西都变成红色,我被不值得检查的警报淹没要好得多(因为它们只是因为nagios客户端-nsclient-在重新启动期间不可用而被发送的)。

一定喜欢使用windows堆栈。。。

有几种方法可以处理此问题

如果您的部署每天都在同一时间发生:
1.您可以修改活动时间段以排除这些时间(或)
2.通过Nagios GUI为主机安排停机时间

如果您的部署发生在不同的/随机的时间,事情会变得有点难以解决:
1.当无法访问nrpe或nsclient时,Nagios通常会抛出"UNKNOWN"警报进行检查。如果您删除以下条目的"u"选项:

host_notification_options   [d,u,r,f,s,n]
service_notification_options    [w,u,c,r,f,s,n]

这将阻止"未知"发送通知。(或)
2.动态修改受影响检查的活动检查,方法是在开始部署前"关闭它们",然后在部署后"打开它们"。这可以使用Nagios的"外部命令文件"实现自动化。

Jim Black的答案是有效的,或者如果您想更深入地了解,您可以定义服务通知上报的依赖关系,如下面文档中所述。

升级警报意味着您可以定义:CPU/ssl etc检查失败->检查主机故障->通知/不通知。

Nagios服务升级(3.0)

最新更新