AWS EMR 上的 Spark 独立模式



我能够在AWS EMR上运行Spark,而不会遇到太多麻烦,但从我所看到的情况来看,它总是使用YARN而不是独立的管理器。有没有办法轻松使用独立模式而不是 YARN?我真的不想破解引导脚本来关闭纱线并自己部署火花大师/工人。

我遇到了一个奇怪的 YARN 相关错误,我希望独立管理器不会发生这种情况。

据我所知,除非您回到旧的 ami 版本而不是使用 emr 发布标签,否则无法在 EMR 上以独立模式运行。但是,旧的ami版本会导致新版本的Spark出现其他问题,所以我不会那样做。

您可以做的是使用 Spark 启动普通 EC2 实例,而不是使用 EMR。如果您有本地 Spark 安装,请转到 ec2 文件夹并使用 spark-ec2 启动群集,如下所示:

./spark-ec2 --copy-aws-credentials --key-pair=MY_KEY --identity-file=MY_PEM_FILE.pem --region=MY_PREFERED_REGION --instance-type=INSTANCE_TYPE --slaves=NUMBER_OF_SLAVES --hadoop-major-version=2 --ganglia launch NAME_OF_JOB 

我怀疑您有需要的 jar 文件,因此必须将它们复制到集群上(首先复制到主服务器,ssh 复制到主服务器并将它们从那里复制到从属服务器上。 主服务器上的./spark-ec2/copy-dir会将目录复制到所有从属服务器上)。然后重新启动 Spark:

./spark/sbin/stop-master.sh
./spark/sbin/stop-slaves.sh
./spark/sbin/start-master.sh
./spark/sbin/start-slaves.sh

并且您已准备好在独立模式下启动 Spark:

./spark/bin/spark-submit --deploy-mode client ...

相关内容

  • 没有找到相关文章

最新更新