几个星期以来,我尝试通过远程访问或连接到YARN集群的pyspark shell提交python脚本。
我是HADOOP世界的新手。我想要的是在外部HADOOP集群的本地shell中提交spark脚本。
我的情况:外部hadoop YARN集群。可以进入重要的港口。我有Windows 7 64位/Python 2.7.9 64位/Spark 1.4.1。
HADOOP集群运行正常。我的问题是:在HADOOP集群上通过远程访问提交python脚本不工作。
如果我尝试Spark-submit——master yarn-cluster——num-executors 2——driver-memory 512m——executor-memory 512m——executor-cores 4…example.py
上面写着
Error: Cluster deploy mode is not applicable to Spark shells.
Exception: Java gateway process exited before sending the driver its port number
就我对这个问题的理解,我认为问题是
我如何正确设置YARN配置以连接我的本地客户端(不属于集群)到外部YARN集群
SPARK VERSION 1.6.0(这是当前版本)。
Python代码不能在YARN-cluster模式下执行。Python只能在本地spark集群上以集群模式执行。
你可以切换到使用spark集群,或者在Java或Scala中重新实现你的代码。