我可以使用'$'操作符引用MongoDB聚合管道中属性的各个值的值。但是,我如何访问(引用)整个文档呢?
UPDATE:提供一个示例来解释场景。
这是我正在尝试做的一个例子。我收集了很多推特。每条推文都有一个成员"集群",这是一个特定推文属于哪个集群的指示。
{
"_id" : "5803519429097792069",
"text" : "The following vehicles/owners have been prosecuted by issuing notice on the basis of photographs on dated... http://t.co/iic1Nn85W5",
"oldestts" : "2013-02-28 16:11:32.0",
"firstTweetTime" : "4 hours ",
"id" : "307161122191065089",
"isLoc" : true,
"powertweet" : true,
"city" : "new+delhi",
"latestts" : "2013-02-28 16:35:05.0",
"no" : 0,
"ts" : 1362081807.9693,
"clusters" : [
{
"participationCoeff" : 1,
"clusterID" : "5803519429097792069"
}
],
"username" : "dtptraffic",
"verbSet" : [
"date",
"follow",
"prosecute",
"have",
"be"
],
"timestamp" : "4 hours ",
"entitySet" : [ ],
"subCats" : {
"Generic" : [ ]
},
"lang" : "en",
"fns" : 18.35967,
"url" : "url|109|131|http://fb.me/2CeaI7Vtr",
"cat" : [
"Generic"
],
"order" : 7
}
因为我的集合中有几十万条tweet,所以我想通过'clusters.clusterID'对所有tweet进行分组。基本上,我想编写如下查询:
db.tweets.aggregate (
{ $group : { _id : '$clusters.clusterID', 'members' : {$addToSet : <????> } } }
)
我想访问当前处理的文档,并在我放入上述查询的地方引用它。有人知道怎么做吗?
使用 $$ROOT
变量:
引用当前正在聚合管道阶段处理的根文档,即顶级文档。
目前还没有在聚合框架中访问完整文档的机制,如果您只需要字段的子集,您可以这样做:
db.tweets.aggregate([ {$group: { _id: '$clusters.clusterID',
members: {$addToSet :
{ user: "$user",
text: "$text", // etc for subset
// of fields you want
}
}
}
} ] )
不要忘记,对于几十万条tweet,聚合整个文档将使您达到返回的聚合框架结果文档的16MB限制。
你可以通过MapReduce这样做:
var m = function() {
emit(this.clusters.clustersID, {members:[this]});
}
var r = function(k,v) {
res = {members: [ ] };
v.forEach( function (val) {
res.members = val.members.concat(res.members);
} );
return res;
}
db.tweets.mapReduce(m, r, {out:"output"});
我认为MapReduce对这个任务更有用。
正如Asya Kamsky在评论中所写的,我的例子对于mongodb是不正确的,请使用mongodb的官方文档