无法通过远程在YARN Hadoop集群上启动python脚本



几个星期以来,我尝试通过远程访问或连接到YARN集群的pyspark shell提交python脚本。

我是HADOOP世界的新手。我想要的是在外部HADOOP集群的本地shell中提交spark脚本。

我的情况:外部hadoop YARN集群。可以进入重要的港口。我有Windows 7 64位/Python 2.7.9 64位/Spark 1.4.1。

HADOOP集群运行正常。

我的问题是:在HADOOP集群上通过远程访问提交python脚本不工作。

如果我尝试Spark-submit——master yarn-cluster——num-executors 2——driver-memory 512m——executor-memory 512m——executor-cores 4…example.py

上面写着

Error: Cluster deploy mode is not applicable to Spark shells.
Exception: Java gateway process exited before sending the driver its port number

就我对这个问题的理解,我认为问题是

我如何正确设置YARN配置以连接我的本地客户端(不属于集群)到外部YARN集群

SPARK VERSION 1.6.0(这是当前版本)。

Python代码不能在YARN-cluster模式下执行。Python只能在本地spark集群上以集群模式执行。

你可以切换到使用spark集群,或者在Java或Scala中重新实现你的代码。

相关内容

  • 没有找到相关文章

最新更新