我使用Icinga2
和NSClient++
我对每个cluster node
上安装的某些集群角色进行了PowerShell
检查。如果集群角色失败,所有cluster nodes
将发送相同的通知,这将导致大量的垃圾邮件,仅仅是一个实际的服务问题。
只在一个集群节点上安装检查是不行的,因为它会为角色监控产生单点故障:一个失败的集群节点不应该影响集群角色(除了短暂的超时),但是一旦集群角色关闭,我将无法检查任何集群角色。
是否有可能将service
分配给hostgroup
,以便在此服务失败时只发送一个通知?
我最终让检查自己检查是否应该将问题报告为关键(节点上的服务本身失败)或警告/ok(另一个节点上的服务失败)