Slurm-job运行,获取数据,但给出TIMEOUT错误



所以我正在运行一些代码,在集群上运行大约需要2个小时。我用配置了批处理文件

# Set maximum wallclock time limit for this job
#Time Format = days-hours:minutes:seconds
#SBATCH --time=0-02:15:00

只是为了在工作因任何原因而放缓时提供一些开销。我检查了生成的文件存储的目录,每次模拟都成功完成。尽管如此,slurm仍会保持作业运行,直到达到最长时间。.out文件一直显示

slurmstepd: *** JOB CANCELLED AT 2022-03-05T10:38:26 DUE TO TIME LIMIT ***

有什么想法为什么它没有显示为完整的吗?

在我看来,这个错误与Slurm无关,而是与您的应用程序有关。您的应用程序不知何故没有向slum发送退出信号。

您可以使用sstat -j jobid查看作业的状态,可能在2小时后查看cpu消耗等情况,并了解应用程序中发生了什么(完成后挂起的位置(。

最新更新