如何恢复/重新提交卡住的SGE作业(qsub的用法?)



我正试图恢复/重新提交由于节点崩溃而卡住的作业(在SGE调度程序上运行(,或者说AWS点实例被拿走了?有人能帮助恢复这样的工作吗?我一直在尝试了解qsub的用法,但无法配置自动重新提交此类作业的内容。

也无法使用qconf命令将我的队列配置为仅root&sge_admin用户可以运行此命令,我确实有root权限,但要求我设置SGE_ROOT环境变量,我这样做了,但仍然不断抛出错误来设置变量。

任何形式的协助都将不胜感激。

来自qsub手册页:

-r y[es]|n[o]
Available for qsub and qalter only.
Identifies the ability of a job to be rerun or not.  
If the value of -r is 'yes', the job will be rerun if the job was 
aborted without leaving a consistent  exit state.  
(This is typically the case if the node on which the job is running
crashes).  If -r is 'no', the job will not be rerun under any circumstances.
Interactive jobs submitted with qsh, qrsh or qlogin are not rerunnable.
Qalter allows changing this option even while the job executes.

所以添加

#$ -r y

在你的工作脚本应该满足这一点。

最新更新