我必须运行同一型号的300个作业(黑匣子)。然而,有时在模型内部发生分割故障,并带有以下错误消息:
srun: error: nodexyz: task 0: Segmentation fault
群集利用slurm作为资源管理器,如果失败,我想自动要求此作业。
尝试在 srun
命令的末尾添加 || scontrol requeue $SLURM_JOB_ID
,以便如果失败并返回非零输出代码,则将需要并重新安排该作业。您可以跟踪使用$SLURM_RESTART_COUNT
的重新启动数。