我有一个脚本运行的condor_submit
,用于25个作业,condor_wait
让他们全部完成,然后另一个condor_submit
用于另一个批处理PF 25作业。
我想确保用Normal termination (return value 127)
(任何非零返回值)失败的前25个作业中的任何非事。
我该如何轻松执行此操作?或者,如果这是不可能的,我也愿意将我的工作可执行在一个脚本中,以防它们返回非零 - 但我不确定如何使HTCONDOR工作失败!
您可以使用condor_history http://research.cs.wisc.edu/htcondor/manual/manual/current/corrent/condor_history.html
如果运行以下命令:
condor_history USERNAME -af clusterId ExitStatus
它将返回
的空间分离列表Jobid ExitStatus
它还支持其他选项,而不是仅通过用户名。
解决此问题的另一种方法是使用condor_dagman工具。使用Dagman,您可以列出工作之间的依赖关系,而Dagman会在所有依赖的工作完成时自动提交作业。无需运行condor_wait或查看退出代码。