使用 MongoDB MapReduce 加入操作



我之前一直在使用MapReduce来执行经典的MR操作,相当于SQL中的GROUP BY。

我想知道在概念上是否可以使用 MapReduce 执行 JOIN 操作。知道如何实施吗?使用MapReduce进行这种操作有意义吗?

谢谢!

MongoDB不支持连接等关系操作。 相反,您可以通过在外部文档中嵌入要加入的行来非规范化数据。因此,您可以拥有具有以下架构的products集合,而不是将产品加入销售:

产品

{
    _id: 123,
    name: "Widget",
    price: 9.99
    sales:
    [ 
        { id:1, date: "20100316", howMany: 2 },
        { id:2, date: "20100316", howMany: 5 }
    ]
}

然后,每当您检索产品时,您还会获得其销售数据,因此无需在其他地方加入或查找信息。

或者,您可以像使用关系数据库一样拆分为两个集合,然后使用其他查询来获取产品的销售额,如下所示:

SQL: SELECT Sales WHERE ProductId = 123

MongoDB: db.sales.find( { productid: 123 } )

产品

{
    _id: 123,
    name: "Widget",
    price: 9.99
}

销售

{
    id: 1,
    productid: 123,
    date: "20100316",
    howMany: 2 
}
{
    id: 2,
    productid: 123,
    date: "20100316",
    howMany: 5
}

我的方法如下:

看看Hadoop,我发现了复合输入格式方法简单地说,它需要两个或多个集合作为map-reduce作业的输入

根据我的调查,MongoDB还没有提供这个。mongodb mapReduce 一次在一个集合上执行。(如果我有问题,请纠正)

所以我决定把需要加入的集合放进去在一个集合中,我将为"sql right join"执行mapreduce。

这是来自我的日志报告器项目。第一阶段map-reduce足以在"没有时钟"的情况下执行右连接。第二阶段map-reduce旨在排除由时钟字段引起的多余右连接。

db.test.drop();
db.test.insert({"username" : 1, "day" : 1, "clock" : 0 });
db.test.insert({"username" : 1, "day" : 1, "clock" : 1 });
db.test.insert({"username" : 1,  startDay : 1,endDay:2, "table" : "user" });
//startDay : 1,endDay:2 are used to define the employers working day (join to company - left the company)
//you can use an array instedad of array here. for example day:[1,2,3, ...]
m1 = function(){
   if( typeof this.table!= "undefined" && this.table!=null){
       username = this.username;
       startDay = this.startDay;
       endDay   = this.endDay;
       while(startDay<=endDay){
           emit({username:username,day:startDay},{clocks:["join"]});
          // emit({username:username,day:startDay},1);
           startDay++;
       }
   }else{
       emit({username:this.username,day:this.day},{clocks:[this.clock]});
   }
}
r1 = function(key,values){
    result = {clocks:[]}
    values.forEach(function(x){
        result.clocks = x.clocks.concat(result.clocks);
        result.clocks=result.clocks.filter(function(element, index, array){
            return element!="join";            
        })
    })
    return result;
}
db.test.mapReduce(m1,r1,{out:"result1"})
db.test.find();
db.result1.find();
m2=function(){
   key=this._id;
   this.value.clocks.forEach(function(x){
       key.clock=x;
       emit(key,1);       
   })   
}
r2 = function(key,values){
    value=0;
    values.forEach(function(x){
        value+=1;      
    })
    return result;
}
db.result1.mapReduce(m2,r2,{out:"result2"})
db.test.find();
db.result2.find();

相关内容

  • 没有找到相关文章

最新更新