如何在亚马逊电子病历集群上远程提交hadoop MR作业

当前情况：我有一个EMR集群。在主节点上，我有一个python程序，它执行子流程调用并执行包含以下行的脚本。子流程触发MR作业，并将输出写入HDFS，以便稍后使用。

/usr/bin/hadoop jar test.jar testing.jobs.TestFeatureJob /in/f1.txt /in/f2.txt

我想做什么？现在，我想把这个部分解耦。我想在我的笔记本电脑或单独的EC2实例上本地运行python程序，但仍然将MR作业提交到EMR集群。假设我在EMR Master节点上有test.jar。

如何远程提交？此外，我使用的是Python，我们还假设JAR是一个黑盒。有什么包可以用来提交作业吗？我必须提到像主节点的IP才能运行这个吗？

基本上，一旦在远程机器上设置了Hadoop conf，就可以远程运行Hadoop或spark。

我在这里附上了一个spark提交AWS远程文档的链接，但对MR来说是一样的。我的意思是，一旦你完成了这些步骤，Hadoop jar就可以工作了。

https://aws.amazon.com/premiumsupport/knowledge-center/emr-submit-spark-job-remote-cluster/

相关内容