如何有条件地安排Hadoop作业

我对Hadoop非常陌生，尤其是Hadoop作业调度。这就是我要做的。

我有两个流，每个流都有一个Hadoop作业。我可以自由地将这些流放在同一个项目或不同的项目中。我不希望Hadoop作业在集群上同时运行，但我也希望确保它们交替运行。

例如，flow_1（带hadoop_job_1）运行并完成->flow_2（带hadoop_job_2）运行并结束->flow_1（含hadoop_job_1）运行和完成，依此类推

当然，我也想优雅地处理特殊情况。例如，流程1已完成，但流程2尚未准备好，则流程1在准备好的情况下有机会再次运行，如果流程1失败，则流程2仍有机会运行，等等。

我想知道我可以探索哪些调度器，哪些能够做到这一点

我们正在使用MapR。

感谢

这看起来是oozie的标准用例。看看这些教程使用Pig，Hive&Hadoop 的Sqoop操作和Oozie工作流调度程序

相关内容