聚合:每小时计数项目

我想知道是否有人能帮我正确使用聚合函数。我正在计算一天中每小时出现一条文本的次数。到目前为止，我有：

db.daily_data.aggregate(
  [
    { $project : { useragent: 1, datetime: 1, url: 1, hour: {$hour: new Date("$datetime")} } },
    { $match : { datetime: {$gte: 1361318400000, $lt: 1361404800000}, useragent: /.*LinkCheck by Siteimprove.*/i } },
    { $group : { _id : { useragent: "$useragent", hour: "$hour" }, queriesPerUseragent: {$sum: 1} } }
  ]
);

但我显然搞错了，因为时间总是0:

{
  "result" : [
    {
      "_id" : {
        "useragent" : "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.0) LinkCheck by Siteimprove.com",
        "hour" : 0
      },
      "queriesPerUseragent" : 94215
    }
  ],
  "ok" : 1
}

这里还有一个精简的记录示例：

{
  "_id" : ObjectId("50fe63c70266a712e8663725"),
  "useragent" : "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.0) LinkCheck by Siteimprove.com",
  "datetime" : NumberLong("1358848954813"),
  "url" : "http://www.somewhere.com"
}

我也尝试过使用new Date("$datetime").getHours()而不是$hour函数来尝试获得相同的结果，但没有成功。有人能告诉我哪里出了问题吗？

谢谢！

这是一个建议，而不是您的问题的答案。

在MongoDB上进行分析时，建议为您想要计算的每个指标预先聚合您的bucket（在您的用例中为每小时bucket）。

因此，对于您的度量，您可以更新预聚合集合（加快查询时间）：

db.user_agent_hourly.update({url: "your_url", useragent: "your user agent", hour: current_HOUR_of_DAY, date: current_DAY_Date}, {$inc: {counter:1}}, {upsert:true})

考虑到在current_DAY_Date中，您必须指向当天的稳定日期值，即current_year/current_month/current_day 00:00:00，使用与当天收到的每个度量相同的小时：分钟：秒。

然后，您可以查询此集合，提取任何给定时间段的聚合分析，如下所示：

 db.user_agent_hourly.aggregate(
    {$match:{date:{$gte: INITIAL_DATE, $lt: FINAL_DATE}}},
    {$group:{ _id : { useragent: "$useragent", hour: "$hour" } ,queriesPerUseragent: {$sum: "$count"} } },
    {$sort:{queriesPerUseragent:-1}}
 )

如果你想使用特定的用户代理过滤结果，你可以使用下一个查询：

 db.user_agent_hourly.aggregate(
    {$match:{date:{$gte: INITIAL_DATE, $lt: FINAL_DATE, useragent: "your_user_agent"}}},
    {$group:{ _id : { useragent: "$useragent", hour: "$hour" }, queriesPerUseragent: {$sum: "$count"} } }
 )

PS：我们将每个接收到的度量存储在其他集合中，以便在发生灾难或其他需要时进行重新处理。

相关内容

最新更新

热门标签：