hadoop中部分排序、总排序和次排序的区别



请告诉我hadoop中部分排序、总排序和二级排序的区别

部分排序: -

reducer的输出将是许多文件,每个文件都是根据键在自己内部排序的。

总排序

:

reducer的输出将是一个单独的文件,所有的输出将根据键进行排序。

二级分类:

在这种情况下,我们将能够控制值和键的顺序。也就是说,可以对两个或多个字段值进行排序。

部分:

N个映射器将生成N个文件。N个reducer将分别对这些文件进行排序。

总排序

来自特定key的所有键值对将到达特定的reducer。这将通过Mapper级别的partitioner来实现。Mapper级别的组合器将充当Semi Reducer,并将特定密钥的值发送给Reducer。

reducer的输出将是一个单独的文件,所有的输出将根据键进行排序。

二级分类

用于定义映射输出键的排序方式。它在Mapper级别上工作。在这种情况下,我们将能够控制值和键的顺序。也就是说,可以对两个或多个字段值进行排序。

看看article1、article2和article3

相关内容

  • 没有找到相关文章

最新更新