在MapReduce中使用list作为值返回相同的值



我有一个MapReduce作业,它输出一个IntWritable作为键,点(我创建的实现可写的对象)对象作为map函数的值。然后在reduce函数中,我使用for-each循环遍历Points的可迭代对象来创建列表:

@Override
public void reduce(IntWritable key, Iterable<Point> points, Context context) throws IOException, InterruptedException {
    List<Point> pointList = new ArrayList<>();
    for (Point point : points) {
        pointList.add(point);
    }
    context.write(key, pointList);
}

问题是这个列表的大小是正确的,但每个点都是完全相同的。我的 Point 类中的字段不是静态的,我已经在循环中单独打印了每个点,以确保点是唯一的(它们是唯一的)。此外,我创建了一个单独的类,它只创建了几个点并将它们添加到列表中,这似乎有效,这意味着MapReduce做了一些我不知道的事情。

任何解决此问题的帮助将不胜感激。

更新:映射器类的代码:

private final static IntWritable one = new IntWritable(1);
private Text word = new Text();
private IntWritable firstChar = new IntWritable();
private Point point = new Point();
@Override
public void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
    String line = value.toString();
    StringTokenizer tokenizer = new StringTokenizer(line, " ");
    while(tokenizer.hasMoreTokens()) {
        String atts = tokenizer.nextToken();
        String cut = atts.substring(1, atts.length() - 1);
        String[] nums = cut.split(",");
        point.set(Double.parseDouble(nums[0]), Double.parseDouble(nums[1]), Double.parseDouble(nums[2]), Double.parseDouble(nums[3]));
        context.write(one, point);
    }
}

积分等级:

public class Point implements Writable {
public Double att1;
public Double att2;
public Double att3;
public Double att4;
public Point() {
}
public void set(Double att1, Double att2, Double att3, Double att4) {
    this.att1 = att1;
    this.att2 = att2;
    this.att3 = att3;
    this.att4 = att4;
}
@Override
public void write(DataOutput dataOutput) throws IOException {
    dataOutput.writeDouble(att1);
    dataOutput.writeDouble(att2);
    dataOutput.writeDouble(att3);
    dataOutput.writeDouble(att4);
}
@Override
public void readFields(DataInput dataInput) throws IOException {
    this.att1 = dataInput.readDouble();
    this.att2 = dataInput.readDouble();
    this.att3 = dataInput.readDouble();
    this.att4 = dataInput.readDouble();
}
@Override
public String toString() {
    String output = "{" + att1 + ", " + att2 + ", " + att3 + ", " + att4 + "}";
    return output;
}

问题出在您的减速器上。您不想将所有点都存储在内存中。它们可能很大,Hadoop为你解决了这个问题(即使以一种尴尬的方式)。

当循环遍历给定Iterable<Points>时,每个Point实例都会被重用,因此它只在给定时间保留一个实例。

这意味着当您调用points.next()时,将发生以下两件事:

  1. 重复使用Point实例并使用下一个点数据进行设置
  2. 这同样适用于Key实例。

在您的情况下,您将在列表中找到仅多次插入并使用上Point中的数据设置的Point的一个实例。

不应在化简器中保存Writables实例,也不应克隆它们。

您可以在此处阅读有关此问题的更多信息
https://cornercases.wordpress.com/2011/08/18/hadoop-object-reuse-pitfall-all-my-reducer-values-are-the-same/

相关内容

  • 没有找到相关文章

最新更新