我是新手Spark。我想提交从本地到远程EMR群集的Spark作业。我正在关注此处的链接以设置所有先决条件:https://aws.amazon.com/premiumsupport/knowledge-center/emr-submit-submit-spark-job-job-remote-cluster/
这是以下命令:
spark-submit --class mymain --deploy-mode client --master yarn myjar.jar
问题:Sparksession创建无法完成,没有任何错误。似乎是一个访问问题。
在AWS文档中,我们知道,通过YARN的主人,YARN使用我从EMR复制的配置文件来知道主和奴隶在哪里(Yarn-Site.xml(。由于我的EMR群集位于VPC中,该VPC需要特殊的SSH配置以访问,因此我如何将此信息添加到纱线中,以便它可以访问远程集群并提交工作?
我认为AWS链接中提出的分辨率更像 - 使用所有依赖关系创建本地Spark设置。
如果您不想进行本地火花设置,我建议您更轻松的方法,可以使用:
1. Livy:为此,您的EMR设置应该安装Livy。检查这个,这个,您应该可以从中推断出来
2。EMR SSH:这需要您在创建EMR群集时使用本地安装AWS-CLI,群集ID和PEM文件。检查此
例如。 aws emr ssh --cluster-id j-3SD91U2E1L2QX --key-pair-file ~/.ssh/mykey.pem --command 'your-spark-submit-command'
(虽然此打印命令在控制台上输出(