我将作业提交到Dataproc中的Spark集群(使用Hadoop Yarn(。 我看到无论我为 spark.master 和部署模式设置的属性如何,当我转到 Spark UI 时,在作业的"环境"选项卡中,它始终显示为 spark.master 的本地,并且作业的不同阶段始终使用相同的执行器 ID, 即使还有更多的空间。
例如:
gcloud dataproc jobs submit spark --cluster mycluster --regionmyregion --class MyApp --properties 'spark.executor.extraJavaOptions=-verbose:class,,spark.master=yarn,spark.deploy-mode=cluster,spark.submit.deployMode=client,spark.executor.instances=2,spark.scheduler.mode=FIFO,spark.executor.cores=2,spark.dynamicAllocation.minExecutors=2'
我设置了.set("spark.master", "local")
代码中,并且优先于提交时发送的属性。