我想知道mapreduce.*参数是否适用于Spark。
据我所知,Spark中没有映射输出的缓冲区,而reduce任务的整个过程也有所不同。像mapreduce.task.io.sort.mb、mapreduce.reduce.shuffle.input.bufferpercent或mapreduce.educe.input.bbuffer.percent这样的参数控制这些类型的缓冲区。我正在优化hadoop/syarn集群中运行的spark任务/作业的参数。
可以肯定地说,这些mapreduce参数无关紧要,我应该只关心spark.*参数既然map、shuffle和reduce部分不同?
这是安全的,因为Spark不使用MapReduce作为处理引擎,但它直接与YARN交互以提交操作。因此,当您使用Spark时,没有安排MapReduce作业,但您有一个Spark应用程序和Spark作业。