我基本了解Hadoop如何将数据从Mapper排序到Reducer。我将以下数据写入context
映射器。以下数据是密钥、值对
abc 1234
cde 2394
dec 8273
abc 2348
cde 8780
dec 6590
密钥的abc, cde, dec
连续n次,具有相同或不同的值。还原器读取具有一组值的键。I.e
abc {1234, 2348, ...} and so on with other keys.
问题:是否有可能按照Mapper输出的相同顺序将数据读取到reducer中,而不是使用值的唯一键组?
如果您需要处理基于标头的数据,那么我认为您可以使用以下方法:-
Mapper
:-
剪切标题并将其作为关键字,将剩余数据作为值。现在,该特定标头的所有数据都将移动到reducer。
Reducer
:-
我们将在reducer中使用这些值,而不进行分组。
abc 1234
cde 2394
dec 8273
abc 2348
cde 8780
dec 6590
然后我们将能够单独处理数据。