是否可以在同一 AWS EMR 集群中同时提交和运行 Spark 作业?如果是,那么您能否详细说明?
您应该使用标记--deploy-mode cluster
,以便将多个执行部署到集群。这将使 yarn 为您处理资源和队列。
完整示例:
spark-submit
--class org.apache.spark.examples.SparkPi
--master yarn
--deploy-mode cluster # can be client for client mode
--executor-memory 20G
--num-executors 50
/path/to/examples.jar
1000
更多细节在这里。
目前,EMR 不支持并行运行多个步骤。据我所知,此类实验功能已经实现,但由于某些问题而未发布。