其中一个SGE作业运行缓慢,被qmaster终止以强制执行h_rt=1200。
这可能是SGE管理员动态更改设置以使作业(id=2771780(运行缓慢吗?如果是,在什么情况下可以这样做?如果没有,是什么原因造成的?
qname test.q
hostname abc
group domain
owner jenkins
project NONE
department defaultdepartment
jobname top
jobnumber 2771780
taskid undefined
account sge
priority 0
qsub_time Mon Dec 20 11:46:06 2021
start_time Mon Dec 20 11:46:07 2021
end_time Mon Dec 20 12:06:08 2021
granted_pe NONE
slots 1
failed 37 : qmaster enforced h_rt, h_cpu, or h_vmem limit
exit_status 137 (Killed)
ru_wallclock 1201s
ru_utime 0.088s
ru_stime 8.797s
ru_maxrss 5.559KB
ru_ixrss 0.000B
ru_ismrss 0.000B
ru_idrss 0.000B
ru_isrss 0.000B
ru_minflt 23574
ru_majflt 0
ru_nswap 0
ru_inblock 128
ru_oublock 240
ru_msgsnd 0
ru_msgrcv 0
ru_nsignals 0
ru_nvcsw 24156
ru_nivcsw 66
cpu 1454.650s
mem 54.658GBs
io 495.010GB
iow 0.000s
maxvmem 1014.082MB
arid undefined
ar_sub_time undefined
category -U arusers,digital -q test.q -l h_rt=1200
如果您说作业通常在1200秒内完成,但在这种特殊情况下运行缓慢,这可能是由于各种外部因素,如存储或网络带宽的争用。您可能还使用了另一种CPU较慢的计算节点类型。SGE管理员可以在作业开始执行之前更改各种资源设置,例如内核数量,但更可能的问题是争用存储/io,甚至由于热原因而限制cpu。