维基百科页面使用Hadoop共同编辑图形提取

我正在尝试使用hadoop构建维基百科共同编辑页面的图形。原始数据包含编辑列表，即每个编辑有一行告诉谁编辑了什么：

# revisionId pageId userId
1 1 10
2 1 11
3 2 10
4 3 10
5 4 11

我想提取一个图表，其中每个节点都是一个页面，如果至少一个编辑器编辑了两个页面（同一个编辑器），两个页面之间有一个链接。对于上面的示例，输出将是：

# edges: pageId1,pageId2
1,2
1,3
1,4
2,3

我远不是Map/Reduce的专家，但我认为这必须在两项工作中完成：

我使用Hadoop实现了这一点，它可以工作。问题是第二个作业的映射阶段真的很慢（实际上，前 30% 没问题，但后来减慢了很多）。我想出的原因是，因为一些用户编辑了许多页面，映射器必须生成很多这样的对作为输出。因此，Hadoop必须溢出到磁盘，使整个事情变得非常缓慢。

因此，我的问题如下：

作为侧节点，这在一小部分编辑样本中运行良好。只有 GB 的数据才会变慢。

显然，这是一个常见的问题，称为组合/互相关/共现，有两种模式可以使用 Map/Reduce、Pair 或 Stripes 来解决它：

我在问题中提出的方法是配对方法，它通常会生成更多的数据。条纹方法从组合器中受益更多，并且在我的情况下提供了更好的结果。

相关内容