SGE设置为减慢特定作业的速度



其中一个SGE作业运行缓慢,被qmaster终止以强制执行h_rt=1200。

这可能是SGE管理员动态更改设置以使作业(id=2771780(运行缓慢吗?如果是,在什么情况下可以这样做?如果没有,是什么原因造成的?

qname        test.q        
hostname     abc     
group        domain              
owner        jenkins             
project      NONE                
department   defaultdepartment   
jobname      top                 
jobnumber    2771780             
taskid       undefined
account      sge                 
priority     0                   
qsub_time    Mon Dec 20 11:46:06 2021
start_time   Mon Dec 20 11:46:07 2021
end_time     Mon Dec 20 12:06:08 2021
granted_pe   NONE                
slots        1                   
failed       37  : qmaster enforced h_rt, h_cpu, or h_vmem limit
exit_status  137                  (Killed)
ru_wallclock 1201s
ru_utime     0.088s
ru_stime     8.797s
ru_maxrss    5.559KB
ru_ixrss     0.000B
ru_ismrss    0.000B
ru_idrss     0.000B
ru_isrss     0.000B
ru_minflt    23574               
ru_majflt    0                   
ru_nswap     0                   
ru_inblock   128                 
ru_oublock   240                 
ru_msgsnd    0                   
ru_msgrcv    0                   
ru_nsignals  0                   
ru_nvcsw     24156               
ru_nivcsw    66                  
cpu          1454.650s
mem          54.658GBs
io           495.010GB
iow          0.000s
maxvmem      1014.082MB
arid         undefined
ar_sub_time  undefined
category     -U arusers,digital -q test.q -l h_rt=1200

如果您说作业通常在1200秒内完成,但在这种特殊情况下运行缓慢,这可能是由于各种外部因素,如存储或网络带宽的争用。您可能还使用了另一种CPU较慢的计算节点类型。SGE管理员可以在作业开始执行之前更改各种资源设置,例如内核数量,但更可能的问题是争用存储/io,甚至由于热原因而限制cpu。

最新更新