amazon web services -如何在EMR集群中运行/安装oozie



我想编排我的EMR作业。所以我觉得乌齐会很合适。我已经在oozie工作流上做了一些POCs,但在本地模式下,它相当简单和伟大。

但是我不明白如何在EMR集群上使用oozie。通过一些搜索,我了解到oozie没有自带aws,所以我们必须将其明确地安装为引导操作。大多数人都指出了这种联系https://github.com/lila/emr-oozie-sample

但由于我是新的法律(EMR),我仍然困惑如何使用它。这将是伟大的,如果有人可以简化它为我提供一些步骤或什么。

谢谢

我有一些问题,我发到了AWS技术支持,得到了以下回复。我试了一下,没有任何额外的工作,Oozie已经全部安装并运行了。

为了在EMR集群上安装Oozie,你需要安装Hue。原因是目前EMR上的Oozie是作为Hue的依赖项安装的。在AMIs 3.3.0和3.3.1上支持Hue,详见http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/ami-versions-supported.html。在启动一个安装了Hue -> http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/emr-hue.html的EMR集群后,您应该能够立即使用Oozie,因为它已经配置好并启动了。

EMR 4。X和5。x系列版本现在将Oozie作为可选应用程序提供。最近在AWS大数据博客上也有一篇文章概述了如何开始使用它:

https://blogs.aws.amazon.com/bigdata/post/TxZ4KDBGBMZYJL/Use-Apache-Oozie-Workflows-to-Automate-Apache-Spark-Jobs-and-more-on-Amazon-EMR

这个github项目也安装了Oozie,所以你不需要关心它。Oozie安装的配置在下一个链接中:

https://github.com/lila/emr-oozie-sample/blob/master/config/config-oozie.sh

之后,有一些任务可以在命令shell中执行:创建:ssh:sshproxy:socksproxy:

因此,如果您按照他的说明操作,您只需要运行其中的一些任务,以便使用Oozie创建和执行EMR任务。

对于那些感兴趣的人,我已经克隆了repo并更新了Oozie安装脚本以支持Hadoop 2.4.0和Oozie 4.0.1

https://github.com/davideanastasia/emr-oozie-sample

首先,这不是对这个问题的直接回答。

EMR集成了Data Pipeline——Amazon自己的调度程序和数据工作流编排器。Amazon希望您将数据管道与EMR一起使用。它可以创建、启动和终止EMR集群,管理集群生命周期等。评估一下是否更符合你的需求

最新更新