群集作业调度程序:工具



我们正在尝试解决与集群作业调度程序相关的问题。

问题是,下面我们有一组在集群中执行的python脚本,启动过程目前是通过人工交互完成的,我的意思是,为了开始测试,我们有一个bash脚本,它与集群交互,请求执行所需的资源。我们打算做的是建立一个自动启动过程(这应该是合理的,因为它可以实现作业状态,并在此基础上等待作业结束、重新启动执行等)。基本上,我们必须在用户工作站和集群之间实现一层。

另一个额外的困难是,我们的层必须足够聪明,才能与不同的集群作业调度器进行交互。我们想知道是否有一个工具或框架可以帮助我们与集群交互,而不必处理每个集群调度器的细节。我们在网上搜索过,但没有找到任何适合我们需要的东西。

顺便说一下,我们使用的编程语言是Python。

提前感谢!

Br.-

使用supervisor:http://supervisord.org/和芹菜http://www.celeryproject.org/一起

查看ipcluster_tools。文档很稀疏,但很容易使用。

最新更新