PBS不断中止我的工作



我从一个处理器请求 14 个处理器(每个处理器有 32 个),如下所示:

#PBS -l nodes=1:ppn=14
#PBS -l walltime=12:00:00

对于较低的ppn它几乎总是有效,但是一旦我得到高于 14 左右的数字,作业就会开始执行并立即终止。 tracejob是非常无益的:

tracejob 14753.hpc2
Job: 14753.hpc2
01/21/2017 11:12:36  L    Considering job to run
01/21/2017 11:12:36  L    Job run
01/21/2017 11:12:36  M    Resource_List.place = scatter
01/21/2017 11:12:36  M    make_cpuset, vnode hpc2[0]:  hv_ncpus (2) > mvi_acpus (0) (you are not expected to understand this)
01/21/2017 11:12:36  M    start_exec, new_cpuset failed
01/21/2017 11:12:36  M    kill_job
01/21/2017 11:12:36  M    hpc2 cput= 0:00:00 mem=0kb
01/21/2017 11:12:37  M    Obit sent
01/21/2017 11:12:37  M    copy file request received
01/21/2017 11:12:37  M    staged 2 items out over 0:00:00
01/21/2017 11:12:37  M    delete job request received
01/21/2017 11:12:37  M    delete job request received
01/21/2017 11:12:38  M    no active tasks
01/21/2017 11:12:38  M    delete job request received

我有时会成功请求更多 CPU,因此它并不完全确定。有没有办法调试这个?

作为侧节点,任何请求多个节点的作业都会永远位于队列中并且永远不会启动,我不知道这是否相关。

您是否正在尝试执行"qrun"并强制尝试在指定的虚拟节点上启动此作业?

作为可能的解决方案,请尝试重新启动 MOM(面向机器的微型服务器)或在 MOM 上将共享设置为独占(当然,您需要成为特权用户才能执行此操作)。

相关内容

  • 没有找到相关文章

最新更新