如果作业失败,我如何自动申请SRUN工作



我必须运行同一型号的300个作业(黑匣子)。然而,有时在模型内部发生分割故障,并带有以下错误消息:

srun: error: nodexyz: task 0: Segmentation fault

群集利用slurm作为资源管理器,如果失败,我想自动要求此作业。

尝试在 srun命令的末尾添加 || scontrol requeue $SLURM_JOB_ID,以便如果失败并返回非零输出代码,则将需要并重新安排该作业。您可以跟踪使用$SLURM_RESTART_COUNT的重新启动数。

最新更新