如何使用MapReduce进行k-Means空间聚类



我是mongodb和map reduce的新手,希望通过使用k-means空间聚类来评估空间数据。我发现这篇文章似乎很好地描述了算法,但我不知道如何将其翻译成mongoshell脚本。假设我的数据看起来像:

{
  _id: ObjectID(),
  loc: {x: <longitude>, y: <latitude>},
  user: <userid>
}

我可以使用{k=sqrt(n/2)},其中n是样本数。我可以使用聚合来获取数据的边界范围和计数等。我有点迷失了对集群点文件的引用,我认为这只是另一个集合,我不知道如何进行迭代,也不知道是在客户端还是数据库中进行迭代?

好吧,我在这方面取得了一些进展,因为我已经生成了一个初始随机点的数组,我需要在map reduce阶段计算最小二乘和,但我不知道如何将这些传递给map函数。我试着写了一个地图函数:

var mapCluster = function() {
    var key = -1;
    var sos = 0;
    var pos;
    for (var i=0; i<pts.length; i++) {
        var dx = pts[i][0] - this.arguments.pos[0];
        var dy = pts[i][1] - this.arguments.pos[1];
        var sumOfSquare = dx*dx + dy*dy;
        if (i == 0 || sumOfSquares < sos) {
            key = i;
            sos = sumOfSquares;
            pos = this.arguments.pos;
        }
    }
    emit(key, pos);
};

在这种情况下,集群点是这样的,这可能不会起作用:

var pts = [ [x,y], [x1,y1], ... ];

因此,对于每个mr迭代,我们将所有收集点与该数组进行比较,并发出我们最接近的点的索引以及收集点的位置,然后在reduce函数中,与每个索引相关联的点的平均值将用于创建新的簇点位置。然后在finialize函数中,我可以更新集群文档。

我想我可以在集群文档上执行findOne()来加载map函数中的集群点,但我们想在每次调用map时加载这个文档吗?或者有没有一种方法可以为每个迭代加载一次?

所以看起来你可以使用这样的范围变量来完成上面的操作:

db.main.mapReduce( mapCluster, mapReduce, { scope: { pnts: pnts, ... }} );

您必须小心作用域中的变量名,因为它们被放置在映射的作用域中,减少并最终化它们可能与现有变量名冲突的函数。

你试过什么?

请注意,您将需要一轮以上的映射器。

使用在MR上运行k-means的规范方法,每个迭代需要一个映射器/减少器

那么,你能试着只写映射并减少单个迭代的步骤吗?

相关内容

  • 没有找到相关文章

最新更新