当我们有多个队列时,如何将作业分配给指定队列。我正在使用Yarn hadoop和AWS EMR
在AWS EMR上,您可以使用以下命令创建一个安装了Spark的集群,并设置Spark.scheduler.mode,该命令引用存储在Amazon S3中的文件myConfig.json。
aws emr create-cluster --release-label emr-5.36.0 --applications Name=Spark
--instance-type m5.xlarge --instance-count 2 --service-role EMR_DefaultRole --ec2-attributes InstanceProfile=EMR_EC2_DefaultRole --configurations https://s3.amazonaws.com/mybucket/myfolder/myConfig.json
myConfig.json:
[
{
"Classification": "spark-defaults",
"Properties": {
"spark.scheduler.mode": "FAIR"
}
}
]
或者,您可以使用以下参数指定初始化作业资源时要使用的调度程序
val sparkConf = new SparkConf()
sparkConf.set("spark.scheduler.mode", "FAIR")
...
val spark = SparkSession.builder().config(sparkConf).getOrCreate()