我想知道如何在YARN中为每个节点设置几个Apache Spark执行器。我需要在纱线站点.xml中以某种方式指定它吗?
当 Spark 运行时,它的行为与任何其他 YARN 应用程序一样,因此它会向 Yarn 请求资源,因此对于初学者,您需要设置 Yarn,以便它能够容纳您的执行者(Hortonworks 这里有一些很好的指南)。
然后,您可以在提交作业时设置所需数量的执行程序及其内存,如Spark文档中显示的示例所示。
$ ./bin/spark-submit --class org.apache.spark.examples.SparkPi
--master yarn-cluster
--num-executors 3
--driver-memory 4g
--executor-memory 2g
--executor-cores 1
lib/spark-examples*.jar