我有这样一个简化模式的文档:
{
positon: 10,
value: 5,
count: 3
}
我想计算的是,按position
对这些文档进行分组,并找到计数大于4的最大value
,但value
小于计数小于4的最小value
。
以下是我所做的,但它不起作用:
{ $group: {
_id: {
position: "$position",
},
result: {$max: { $cond: [ {$and: [ {$gte: ["$count", 4]},
{$lt: ["$value", {$min: { $cond: [ {$lt: ["$count", 4]},
{ value: "$value" },
10]
}
}]
}]},
{ value: "$value", nb: "$count"},
0]
}
}
}
}
有人说$min
是一个无效的运算符,我不知道如何编写正确的聚合函数。运行mapreduce会更好吗?
例如,如果我有那些文件
{Position: 10, value: 1, count 5}
{Position: 10, value: 3, count 3}
{Position: 10, value: 4, count 5}
{Position: 10, value: 7, count 4}
我希望是
{Position: 10, value: 1, count 4}
因为这是"值"的最大值,其中count大于4,但也因为有一个值3只有3个计数,所以值4不是我想要的。
至少可以说,这有点令人费解,但我要再解释一次:
您想要:
对于每个"位置"值,找到"值"小于"计数"小于4的文档的最大"值"的文档,其自身的"计数"实际上大于4。
这读起来像是一道数学考试题,旨在让你混淆逻辑。但要理解这一点,您可以通过以下步骤执行聚合:
db.positions.aggregate([
// Separate the values greater than and less than 4 by "Position"
{ "$group": {
"_id": "$Position",
"high": { "$push": {
"$cond": [
{ "$gt": ["$count", 4] },
{ "value": "$value", "count": "$count" },
null
]
}},
"low": { "$push": {
"$cond": [
{ "$lt": ["$count", 4] },
{ "value": "$value", "count": "$count" },
null
]
}}
}},
// Unwind the "low" counts array
{ "$unwind": "$low" },
// Find the "$max" value from the low counts
{ "$group": {
"_id": "$_id",
"high": { "$first": "$high" },
"low": { "$min": "$low.value" }
}},
// Unwind the "high" counts array
{ "$unwind": "$high" },
// Compare the value to the "low" value to see if it is less than
{ "$project": {
"high": 1,
"lower": { "$lt": [ "$high.value", "$low" ] }
}},
// Sorting, $max won't work over multiple values. Want the document.
{ "$sort": { "lower": -1, "high.value": -1 } },
// Group, get the highest order document which was on top
{ "$group": {
"_id": "$_id",
"value": { "$first": "$high.value" },
"count": { "$first": "$high.count" }
}}
])
因此,从一组文件来看:
{ "Position" : 10, "value" : 1, "count" : 5 }
{ "Position" : 10, "value" : 3, "count" : 3 }
{ "Position" : 10, "value" : 4, "count" : 5 }
{ "Position" : 10, "value" : 7, "count" : 4 }
在这种情况下,只返回第一个,因为它的值小于它自己的计数大于4的"count of three"文档。
{ "_id" : 10, "value" : 1, "count" : 5 }
我确信这就是你真正的意思。
因此,$min
和$max
的应用实际上只适用于从分组范围外的文档中获取离散值的情况。如果您对文档或整个文档中的多个值感兴趣,那么您将排序并在分组边界上获得$first
或$last
条目。
聚合比mapReduce快得多,因为它使用本地代码而不调用JavaScript解释器。