如何理解hadoop mapred.min.split.size和minSplitSize?



在hadoop mapreduce中,设置map阶段的map个数时,需要设置mapred.min.split。大小,但是在查看官方文档时,还有另一个参数是"minSplitSize"。两者的区别是什么?

首先" mapred.min.split.size ";不推荐使用mapreduce.input.fileinputformat.split.minsize";根据hadoop docs.

不过,"mapred.min.split.size"用于在xml配置文件中配置hadoop集群,而"minSplitSize"在FileInputFormat类的setMinSplitSize方法中使用,可以直接在作业配置中以编程方式设置该值,并且特定于单个作业。

好运

相关内容

  • 没有找到相关文章

最新更新