Nagios SNMP进程检查挂起在过时的nfs装载上



我刚在工作中接到这项任务,这让我不知所措。我们有一个nagios监控脚本,该脚本执行并运行流程检查。我们有一台NFS服务器最近出现了问题,如果它出现故障,所有装载它的机器都会开始无法通过进程检查,因为NFS装载已挂起,并且已挂起SNMP检查。

检查脚本是一个使用NET::SNMP库的perl-nagios脚本。我确信这只是一个通用的nagios脚本。脚本位于http://nagios.manubulon.com/check_snmp_process.pl

请帮我了解发生了什么。

EDIT:有问题的nfs装载适用于需要硬装载的oracle RMAN备份。

相当简单-NFS是为允许服务器重新启动而设计的。因此,当挂载的文件系统hard时,对其的NFS调用将阻塞并等待服务器响应。这是为了确保没有数据丢失或进程被挂起——它们只是"暂停"——这将是你遇到的问题。

nfs有一个挂载选项可以避免这个问题——在挂载时只需指定soft(在fstab中,或者在手动执行时指定-o soft)。

不过请注意,访问NFS装载时会出现错误。大多数事情都能容忍这种情况,但写得不好的脚本或程序总是有可能失败。

原来有一个单独的检查来监控磁盘使用情况。它阻塞了snmpd进程,从而导致进程检查失败。

最新更新