小贝子编程

如果作业失败，我如何自动申请SRUN工作

本文关键字：SRUN 工作何自动作业失败如果 slurm
更新时间 : 2023-09-10
英文 : How can i requeue a srun job of SLURM automatically if the jobs fails?

我必须运行同一型号的300个作业（黑匣子）。然而，有时在模型内部发生分割故障，并带有以下错误消息：

srun: error: nodexyz: task 0: Segmentation fault

群集利用slurm作为资源管理器，如果失败，我想自动要求此作业。

尝试在 srun命令的末尾添加 || scontrol requeue $SLURM_JOB_ID，以便如果失败并返回非零输出代码，则将需要并重新安排该作业。您可以跟踪使用$SLURM_RESTART_COUNT的重新启动数。

最新更新

消息队列推送通知/邮件应用程序?
如何在根目录下安装gitignore
我应该如何测试一个API调用拒绝是在一个上下文中?
百分比值到绝对值，反之亦然，由于整数四舍五入，转换导致不匹配
由于 NBM 的原因，我无法在 NetBeans 中下载代号一插件
如何组织项目与多个Go模块和使用Docker撰写?
蓝牙BLE设备配对后未绑定
为什么我在 Django 中显示用户配置文件的代码不起作用？
使用api平台图形查询读取空间点类型
如何处理嵌套角色中超出范围的变量
std::vector and move semantics
ImageMagick多个命令，带有不同的源和目标文件夹和文件
是否有一个特定的键进入一个字符和退出插入模式在vim vscode扩展?
c - NULL值在运行时被重新分配给垃圾
我如何将这个python函数转换为c++?
我可以用pybliometrics找到论文的通讯作者是谁，以及他们的电子邮件地址吗?
了解如何在Ruby on Rails中使用Turbo
解码mediaRecorder音频文件在Python中
节点/反应：我无法使用 multer 上传带有我的帖子的图像
Texture.loadFromFile 无法按预期工作
如何使用Url_Launcher的inAppWebView作为小部件
两个主类的子类构造函数
Spring GET Rest - 原因：预期在路径 $ 中查找具有属性 ['id'] 的对象，但找到 'net.minidev.json.JSONArray'
应用程序指标发生了什么，例如进程使用的CPU在刮擦间隔prometheus中没有被刮擦
每个脚本发送GDoc / GSheet
apoc.col .zip()的一些奇怪的结果
unboundfield对象不可调用
在jQuery刀片文件中使用php larval helper函数
排序颜色，似乎不明白出了什么问题
在supabase的颤振sdk中，如何使用.contains("group_members"，[my_uid])之类的东西过滤流？

如果作业失败，我如何自动申请SRUN工作

相关内容

最新更新

热门标签：