请告诉我hadoop中部分排序、总排序和二级排序的区别
部分排序: -
reducer的输出将是许多文件,每个文件都是根据键在自己内部排序的。
总排序:
reducer的输出将是一个单独的文件,所有的输出将根据键进行排序。
二级分类:
在这种情况下,我们将能够控制值和键的顺序。也就是说,可以对两个或多个字段值进行排序。
部分:
N个映射器将生成N个文件。N个reducer将分别对这些文件进行排序。
总排序来自特定key的所有键值对将到达特定的reducer。这将通过Mapper级别的partitioner来实现。Mapper级别的组合器将充当Semi Reducer,并将特定密钥的值发送给Reducer。
reducer的输出将是一个单独的文件,所有的输出将根据键进行排序。
二级分类
用于定义映射输出键的排序方式。它在Mapper级别上工作。在这种情况下,我们将能够控制值和键的顺序。也就是说,可以对两个或多个字段值进行排序。
看看article1、article2和article3