如何测试我的任何HTCONDOR作业是否使用非零错误代码返回



我有一个脚本运行的condor_submit,用于25个作业,condor_wait让他们全部完成,然后另一个condor_submit用于另一个批处理PF 25作业。

我想确保用Normal termination (return value 127)(任何非零返回值)失败的前25个作业中的任何非事。

我该如何轻松执行此操作?或者,如果这是不可能的,我也愿意将我的工作可执行在一个脚本中,以防它们返回非零 - 但我不确定如何使HTCONDOR工作失败!

您可以使用condor_history http://research.cs.wisc.edu/htcondor/manual/manual/current/corrent/condor_history.html

如果运行以下命令:

condor_history USERNAME -af clusterId ExitStatus

它将返回

的空间分离列表

Jobid ExitStatus

它还支持其他选项,而不是仅通过用户名。

解决此问题的另一种方法是使用condor_dagman工具。使用Dagman,您可以列出工作之间的依赖关系,而Dagman会在所有依赖的工作完成时自动提交作业。无需运行condor_wait或查看退出代码。

相关内容

最新更新