SGE 群集 qsub 电子邮件通知不起作用



我正在处理 SGE 集群,但 qsub 电子邮件通知系统遇到了一些问题。 我的所有作业都运行良好,但我似乎无法修改默认行为以仅在中止的作业时通知。 -M 标志工作正常,作业中止时我确实会收到一封电子邮件,但是我希望在作业开始、结束、中止或挂起时收到一封电子邮件。 我在脚本中使用以下标志(以及更多),我缺少一些愚蠢的东西吗?

#!/bin/bash
#$ -S /bin/bash
#$ -M email@server
#$ -m beas
program

当我尝试以下方法时,它也不起作用:

qsub -M email@server -m baes script.sh

这是我应该与群集系统管理员一起处理的问题,还是我做错了什么?

感谢您的帮助。

在解决此问题时要了解的重要一点是,您的作业状态电子邮件将由运行作业的节点发送。 例如,我有一个具有以下输出的测试作业:

#!/bin/bash
#
#$ -N MAIL
#$ -j y
#$ -m easb
#$ -M pkenyon
hostname
现在,运行

作业,看看它运行的位置。

[pkenyon@head ~]$ qsub mail.sh
Your job 346 ("MAIL") has been submitted
[pkenyon@head ~]$ cat MAIL.o346
node03.cluster

如果您查看系统上的邮件日志,您将看到所做的传递尝试。 您必须从那里进行诊断。 以下是一些失败的例子(甚至是没有按照您希望的方式成功

):
  • 使用 -M pkenyon 发送到计算节点地址

    ...
    Jun  5 13:56:00 node04 postfix/local[13141]: 14A3E143320: to=<pkenyon@node04.cluster>, orig_to=<pkenyon>, relay=local, delay=0.05, delays=0.03/0/0/0.01, dsn=2.0.0, status=sent (delivered to mailbox)
    ...
    
  • 头节点 MX 设置不正确,使用-M pkenyon@head.cluster

    ...
    Jun  5 14:00:30 node04 postfix/smtp[13283]: 35CC4143320: to=<pkenyon@head.cluster>, relay=none, delay=0.36, delays=0.17/0/0.19/0, dsn=5.4.4, status=bounced (Host or domain name not found. Name service error for name=head.cluster type=AAAA: Host not found)
    ...
    
  • 如果使用本地邮件中继
  • ,则需要将系统设置为使用本地邮件中继-M someone@gmail.com

    ...
    Jun  5 12:20:47 node04 postfix/smtp[12798]: 1EEA5143320: to=<someone@gmail.com>, relay=ASPMX.L.GOOGLE.com[64.233.168.27]:25, delay=0.64, delays=0.04/0/0.59/0.02, dsn=5.0.0, status=bounced (host ASPMX.L.GOOGLE.com[64.233.168.27] said: 550 Relay not permitted (in reply to RCPT TO command))
    ...
    

所以是的,您需要与您的集群系统管理员交谈,但这些是确定您的 SGE 电子邮件挂断位置的第一步。 有了更多信息,您的管理员将能够修复配置问题,并帮助您从群集环境中获得更多收益。

最新更新