在hadoop mapreduce中,设置map阶段的map个数时,需要设置mapred.min.split。大小,但是在查看官方文档时,还有另一个参数是"minSplitSize"。两者的区别是什么?
首先" mapred.min.split.size ";不推荐使用mapreduce.input.fileinputformat.split.minsize";根据hadoop docs.
不过,"mapred.min.split.size"用于在xml配置文件中配置hadoop集群,而"minSplitSize"在FileInputFormat类的setMinSplitSize方法中使用,可以直接在作业配置中以编程方式设置该值,并且特定于单个作业。
好运