映射器不需要的输出



我试图一起处理一个数据集的四行。为此,我在映射器中使用了一个变量lineCount。但我没有正确地得到部分输出。

这是我的映射器类:-

public class GC_Mapper extends Mapper<LongWritable, Text, Text, IntWritable> {
    int lineCount = 0;
    public void map(LongWritable key, Text value, Context context)
            throws IOException, InterruptedException {
        String line = value.toString();
        if (lineCount % 4 == 0) {
            context.write(new Text("#Reads"), new IntWritable(1));
            lineCount++;
            return;
        }
        if (lineCount % 4 == 1) {
            context.write(new Text("X"), new IntWritable(1));               
            lineCount++;
            return;
        }
        if (lineCount % 4 == 2) {
            context.write(new Text("Y"), new IntWritable(1));
            lineCount++;
            return;
        }
        if (lineCount % 4 == 3) {
            context.write(new Text("Z"), new IntWritable(1));
            lineCount++;
            return;
        }
    }
}

我的减速器:-

public class GC_Reducer extends
        Reducer<Text, IntWritable, Text, DoubleWritable> {
    int numReads;
    public void reduce(Text key, Iterable<IntWritable> values, Context context)
            throws IOException, InterruptedException {
        if ((key.toString()).startsWith("#")) {
            for (IntWritable read : values) {
                numReads += read.get();
            }
            context.write(key, new DoubleWritable(numReads));
        }
        if ((key.toString().startsWith("X"))) {
            double sum1 = 0;
            for (IntWritable val : values) {
                sum1 += val.get();
            }
            context.write(key, new DoubleWritable(sum1));
        }
        if ((key.toString().startsWith("Y"))) {
            double sum2 = 0;
            for (IntWritable val : values) {
                sum2 += val.get();
            }
            context.write(key, new DoubleWritable(sum2));
        }
        if ((key.toString().startsWith("Z"))) {
            double sum3 = 0;
            for (IntWritable val : values) {
                sum3 += val.get();
            }
            context.write(key, new DoubleWritable(sum3));
        }
    }
}

我的意图是计算Reads的数量(假设4行被作为一条记录),并以不同的方式处理4行。但我面临的问题是,我得到的输出是:-

#Reads 50.0
X      100.0
Y      100.0
Z      100.0  

但我想要的输出是50.0对于所有的键。只有#Reads值是正确的。请帮我找到解决方案。提前感谢!

如果所有数据都是4行记录格式,那么使用FileInputFormatRecordReader听起来更好。您只需要将4行文本文件一起发送到映射器,而不是逐行发送。

看看我关于在hadoop中阅读pdf的问题的答案。您的主要工作将依赖于RecordReader扩展类的nextKeyValue函数。

我自己得到了答案。实际上,这是我的一个错误。我的映射器输出值为IntWritable。我试图将其分配给一个双变量,并试图将该值写为reducer中的DoubleWritable。谢谢大家!

相关内容

  • 没有找到相关文章

最新更新