我安装了以下火花基准测试: https://github.com/BBVA/spark-benchmarks 我在 8 个工作线程的 YARN 上运行 Spark,但在工作期间我只得到 2 个正在运行的执行器(TestDFSIO)。 我还将executor-cores
设置为 9,但只有 2 个正在运行。 为什么会这样呢?
我认为问题来自YARN,因为我在Hadoop上的TestDFSIO上遇到了类似的(几乎)问题。实际上,在作业开始时,只有两个节点运行,但随后所有节点并行执行应用程序!
请注意,我没有使用HDFS进行存储!
我解决了这个问题。我所做的是将每个执行程序的核心数设置为 5 (--executor-cores
),将执行程序总数设置为 23 (--num-executors
),最初默认为 2