CouchDB:返回基于时间戳的最新文档类型



我有一个接受来自各种唯一来源的状态更新的系统,每个状态更新都会创建一个结构为以下结构的新文档:

{
 "type": "status_update",
 "source_id": "truck1231",
 "timestamp": 13023123123,
 "location": "Boise, ID"
}

数据纯粹是示例,但可以传达想法。

现在,这些文档每隔一段时间生成一次,大约每小时一次。 一个小时后,我们可能会插入:

{
 "type": "status_update",
 "source_id": "truck1231",
 "timestamp": 13023126723,
 "location": "Madison, WI"
}

我感兴趣的只是查看每个唯一来源的最新更新。 我目前正在通过拍摄以下地图来做到这一点:

function(doc) {
  if (doc.type == "status_update") {
    emit(doc.source_id, doc);
  }
}

并减少:

function(keys, values, rereduce) {
  var winner = values[0];
  var i = values.length;
  while (i--) {
    var val = values[i];
    if (val.timestamp > winner.timestamp) winner = val;
  }
  return winner;
}

并将数据查询为group=true的减少。 这将按预期工作,并提供仅最新更新的关键结果。

问题是它非常慢,需要我在 CouchDB 配置中reduce_limit=false

感觉必须有一种更有效的方法来做到这一点。 更新同一文档不是一种选择——即使在这种情况下我不需要它,历史记录也很重要。 处理数据客户端也不是一种选择,因为这是一个CouchApp,系统中的文档数量实际上非常大,并且通过网络发送它们并不切实际。

提前谢谢。

您可以使用

_stats内置的reduce函数获取每个源的最新时间戳,然后执行另一个查询以获取文档。以下是视图:

"views": {
  "latest_update": {
    "map": "function(doc) { if (doc.type == 'status_update') emit(doc.source_id, doc.timestamp); }",
    "reduce": "_stats"
  },
  "status_update": {
    "map": "function(doc) { if (doc.type == 'status_update') emit([doc.source_id, doc.timestamp], 1); }"
  }
}

首先使用 group=true 进行查询latest_update,然后使用类似(正确 url 编码(的内容status_update

keys=[["truck123",TS123],["truck234",TS234],...]&include_docs=true

其中 TS123 和 TS234 是 latest_update 返回的max的值。

CouchDB map/reduce是增量的,这基本上意味着结果总是被缓存的,因此对同一视图(即使使用不同的搜索参数(的后续请求"免费"运行(或以对数时间运行(。

但是,对于reduce组来说,这并不完全正确。有时,部分结果必须即时重新还原。也许这就是你正在击中的。

相反,一个地图视图(即没有reduce函数(发出这样的行,以数组为键怎么样:

// Row diagram (pseudo-code, just to show the concept).
// Key                    , Value
// [source_id, timestamp] , null // value is not very important in this example
["truck1231", 13023123123], null
["truck1231", 13023126723], null
["truck5555", 13023126123], null
["truck6666", 13023000000], null

请注意源的所有时间戳如何"聚集"在一起。(实际上,他们整理。要查找 "truck1231" 的最新时间戳,只需请求该"丛"中的最后一行。为此,请从末尾使用limit=1参数执行降序查询。若要指定"end",请使用{}"高键"值作为键中的第二个元素(有关详细信息,请参阅排序规则链接(。

?descending=true&limit=1&startkey=["truck1231",{}]

(实际上,由于您的时间戳是整数,因此您可以发出它们的否定,例如 -13023123123 .这将稍微简化您的查询,但是 - 我不知道 - 这对我来说似乎是在玩火。

为了生成这些类型的行,我们有一个这样的map函数:

function(doc) {
  // Emit rows sorted first by source id, and second by timestamp
  if (doc.type == "status_update" && doc.timestamp) {
    emit([doc.source_id, doc.timestamp], null) // Using `doc` as the value would be fine too
  }
}

我怀疑它很慢只是因为你发出了整个文档,这意味着需要存储和移动大量数据来计算你的最终值。尝试改为发出时间戳:

function(doc) {
  if (doc.type == "status_update") {
    emit(doc.source_id, [doc._id,doc.timestamp]);
  }
}
function(keys, values, rereduce) {
  var winner = values[0];
  var i = values.length;
  while (i--) {
    var val = values[i];
    if (val[1] > winner[1]) winner = val;
  }
  return winner;
}

这应该可以为每个键提供一个[id,timestamp]对,而不会太慢或不必在视图中存储太多数据。

在客户端上获得标识符列表后,使用批量 GET API 发送第二个请求:

_all_docs?keys=[id1,id2,id3,...,idn]&include_docs=true 

这将在一个请求中获取所有文档。

相关内容

  • 没有找到相关文章

最新更新