Reducer可以读取映射器输出的相同顺序,而不是使用值对唯一键进行分组



我基本了解Hadoop如何将数据从Mapper排序到Reducer。我将以下数据写入context映射器。以下数据是密钥、值对

abc 1234
cde 2394
dec 8273
abc 2348
cde 8780
dec 6590

密钥的abc, cde, dec连续n次,具有相同或不同的值。还原器读取具有一组值的键。I.e

abc {1234, 2348, ...} and so on with other keys.

问题:是否有可能按照Mapper输出的相同顺序将数据读取到reducer中,而不是使用值的唯一键组?

如果您需要处理基于标头的数据,那么我认为您可以使用以下方法:-

Mapper:-

剪切标题并将其作为关键字,将剩余数据作为值。现在,该特定标头的所有数据都将移动到reducer。

Reducer:-

我们将在reducer中使用这些值,而不进行分组。

abc 1234
cde 2394
dec 8273
abc 2348
cde 8780
dec 6590

然后我们将能够单独处理数据。

相关内容

  • 没有找到相关文章

最新更新