使用纱线运行 Spark 的步骤



在 YARN 上运行 Spark 的步骤是什么

?到目前为止,我做了什么。创建了一个用户纱线并安装了Spark和Hadoop。在当地经营火花工作。 我需要有关配置的帮助,特别是Hadoop集群的(客户端(配置文件。无法弄清楚将它们放在哪里,链接它们并且很长时间都出现错误。

检查这个 火花提交无法连接

我想这就是你要找的。

在纱线上运行火花

我猜您知道 Yarn 提供了运行作业的资源。因此,您必须在代码中将主控节点定义为 YARN。 然后将数据上传到 hdfs 以运行 Spark 作业。我附上了 apache 文档,您可以在其中找到指导。

第 1 步:使用一些在线参考正确配置 YARN(yarn-site.xml(,然后检查 YARN 是否正确安装,请运行以下命令

Yarn jar/opt/hadoop/share/hadoop/mapreduce/

hadoop-mapreduce-examples-2.7.3.jar wordcount/tmp/abhijeet/hadoop.in/tmp/abhijeet/out/out.1

如果这工作正常,那么你就可以了。

第 2 步:参考一些在线内容安装 Spark,并使用以下命令进行健全性检查,检查 Spark 是否正确安装

opt/spark/

bin/spark-submit --class org.apache.spark.examples.SparkPi --master local[*]/opt/spark/examples/jars/spark-examples_2.11-2.1.1.jar

如果这工作正常,则表示火花安装正确。

第 3 步:现在,是时候在纱线上运行火花

了运行以下给定的命令

/opt/spark/bin/spark-submit --class org.apache.spark.examples.SparkPi --master yarn --deploy-mode cluster --executor-memory 2G --num-executors 2 /opt/spark/examples/jars/spark-examples_2.11-2.1.1.jar

如果这个工作正常,那么恭喜!

注意:上面给定的路径是我的系统的本地路径,所有使用的jar都带有Hadoop和Spark的默认软件包。

相关内容

  • 没有找到相关文章

最新更新