如何在亚马逊电子病历集群上远程提交hadoop MR作业



当前情况:我有一个EMR集群。在主节点上,我有一个python程序,它执行子流程调用并执行包含以下行的脚本。子流程触发MR作业,并将输出写入HDFS,以便稍后使用。

/usr/bin/hadoop jar test.jar testing.jobs.TestFeatureJob /in/f1.txt /in/f2.txt

我想做什么?现在,我想把这个部分解耦。我想在我的笔记本电脑或单独的EC2实例上本地运行python程序,但仍然将MR作业提交到EMR集群。假设我在EMR Master节点上有test.jar。

如何远程提交?此外,我使用的是Python,我们还假设JAR是一个黑盒。有什么包可以用来提交作业吗?我必须提到像主节点的IP才能运行这个吗?

基本上,一旦在远程机器上设置了Hadoop conf,就可以远程运行Hadoop或spark。

我在这里附上了一个spark提交AWS远程文档的链接,但对MR来说是一样的。我的意思是,一旦你完成了这些步骤,Hadoop jar就可以工作了。

https://aws.amazon.com/premiumsupport/knowledge-center/emr-submit-spark-job-remote-cluster/

最新更新