如何有条件地安排Hadoop作业



我对Hadoop非常陌生,尤其是Hadoop作业调度。这就是我要做的。

我有两个流,每个流都有一个Hadoop作业。我可以自由地将这些流放在同一个项目或不同的项目中。我不希望Hadoop作业在集群上同时运行,但我也希望确保它们交替运行。

例如,flow_1(带hadoop_job_1)运行并完成->flow_2(带hadoop_job_2)运行并结束->flow_1(含hadoop_job_1)运行和完成,依此类推

当然,我也想优雅地处理特殊情况。例如,流程1已完成,但流程2尚未准备好,则流程1在准备好的情况下有机会再次运行,如果流程1失败,则流程2仍有机会运行,等等。

我想知道我可以探索哪些调度器,哪些能够做到这一点

我们正在使用MapR。

感谢

这看起来是oozie的标准用例。看看这些教程使用Pig,Hive&Hadoop 的Sqoop操作和Oozie工作流调度程序

相关内容

  • 没有找到相关文章

最新更新