如何设置齐柏林与远程EMR Yarn集群工作



我有Amazon EMR Hadoop v2.6集群与Spark 1.4.1,与Yarn资源管理器。我想将Zeppelin部署在单独的机器上,以便在没有作业运行时关闭EMR集群。

我试着从这里遵循指令https://zeppelin.incubator.apache.org/docs/install/yarn_install.html但没有多大成功。

有人能解释一下齐柏林如何从不同的机器连接到现有的Yarn集群吗?

[1]安装齐柏林飞艇:

git clone https://github.com/apache/incubator-zeppelin.git ~/zeppelin;
cd ~/zeppelin;
mvn clean package -Pspark-1.4 -Dhadoop.version=2.6.0 -Phadoop-2.6 -Pyarn -DskipTests

[2]更新EMR_MASTER EC2安全组以接受来自所有端口的传入请求,与齐柏林飞船通信(应该是特定的端口,尚不知道是哪个)

[3]将目录EMR_MASTER:/etc/hadoop/conf复制到MY_STANDALONE_SERVER:/home/zeppelin/hadoop-conf.

[4] zeppelin/conf/zeppelin-env.sh应该包含:

export MASTER=yarn-client
export HADOOP_CONF_DIR=/home/zeppelin/hadoop-conf

注意:像spark.executor.instances这样的Spark参数取自解释器设置,在这里指定。

相关内容

  • 没有找到相关文章

最新更新