在 YARN 上运行 Spark 的步骤是什么
?到目前为止,我做了什么。创建了一个用户纱线并安装了Spark和Hadoop。在当地经营火花工作。 我需要有关配置的帮助,特别是Hadoop集群的(客户端(配置文件。无法弄清楚将它们放在哪里,链接它们并且很长时间都出现错误。
检查这个 火花提交无法连接
我想这就是你要找的。
在纱线上运行火花
我猜您知道 Yarn 提供了运行作业的资源。因此,您必须在代码中将主控节点定义为 YARN。 然后将数据上传到 hdfs 以运行 Spark 作业。我附上了 apache 文档,您可以在其中找到指导。
第 1 步:使用一些在线参考正确配置 YARN(yarn-site.xml(,然后检查 YARN 是否正确安装,请运行以下命令
Yarn jar/opt/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar wordcount/tmp/abhijeet/hadoop.in/tmp/abhijeet/out/out.1
如果这工作正常,那么你就可以了。
第 2 步:参考一些在线内容安装 Spark,并使用以下命令进行健全性检查,检查 Spark 是否正确安装
opt/spark/bin/spark-submit --class org.apache.spark.examples.SparkPi --master local[*]/opt/spark/examples/jars/spark-examples_2.11-2.1.1.jar
如果这工作正常,则表示火花安装正确。
第 3 步:现在,是时候在纱线上运行火花
了运行以下给定的命令
/opt/spark/bin/spark-submit --class org.apache.spark.examples.SparkPi --master yarn --deploy-mode cluster --executor-memory 2G --num-executors 2 /opt/spark/examples/jars/spark-examples_2.11-2.1.1.jar
如果这个工作正常,那么恭喜!
注意:上面给定的路径是我的系统的本地路径,所有使用的jar都带有Hadoop和Spark的默认软件包。