输出收集器的工作原理



我试图分析默认的mapreduce作业,它没有定义映射器或化简器。即使用IdentityMapper和IdentityReducer的为了明确自己,我只是写了我的身份简化器

public static class MyIdentityReducer extends MapReduceBase implements Reducer<Text,Text,Text,Text> {
        @Override
        public void reduce(Text key, Iterator<Text> values,
                OutputCollector<Text, Text> output, Reporter reporter)
                throws IOException {
            while(values.hasNext()) {
                Text value = values.next();
                output.collect(key, value);
            }
        }   
    }

我的输入文件是:

$ hadoop fs -cat NameAddress.txt
Dravid Banglore
Sachin Mumbai
Dhoni Ranchi
Dravid Jaipur
Dhoni Chennai
Sehwag Delhi
Gambhir Delhi
Gambhir Calcutta
I was expecting
Dravid Jaipur
Dhoni Chennai
Gambhir Calcutta
Sachin Mumbai
Sehwag Delhi
I got
$ hadoop fs -cat NameAddress/part-00000
Dhoni   Ranchi
Dhoni   Chennai
Dravid  Banglore
Dravid  Jaipur
Gambhir Delhi
Gambhir Calcutta
Sachin  Mumbai
Sehwag  Delhi

我认为,由于聚合是由程序员在化简器的while循环中完成的,然后写入输出收集器。我的印象是传递给输出收集器的化简器的键始终是唯一的,因为在这里如果我不聚合,最后一个键的值将覆盖前一个值。显然不是这样。有人可以给我一个更好的输出收集器,它是如何工作的以及它如何处理所有键。我在 hadoop src 代码中看到许多输出收集器的实现。我可以编写自己的输出收集器来执行我的期望吗?

这些键对于化简器是唯一的,对化简器的每次调用都有一个唯一的键值,并且是与该键关联的所有值的可迭代对象。 您正在做的是遍历传入的所有值并写出每个值。

因此,在您的案例中,调用可能少于数据并不重要。 你最终仍然会写出所有值。

最新更新