如何使用MapReduce对重复项进行分组



我想使用MapReduce返回一个重复元组的列表。所谓重复元组,我指的是在一组属性中具有相似值的元组。

我可以把这组属性的值作为中间键,并调整reduce以将所有类似的键作为一个键处理吗?

是的,我可以实现我自己的中间键类,它实现了接口WritableComparable。因此,我被迫实现函数CompareTo,如果输入相等,则返回0

在我的例子中,attributes的类是我的元组的属性。因此,我只是以这样一种方式编写函数"CompareTo",即当所有这些属性相似时,它会返回0。这里的相似性可以通过Levenstein编辑距离来计算。

相关内容

  • 没有找到相关文章