在 elasticsearch 中删除过时文档的最佳实践



我有一个将模型推送到 elasticsearch 的 django 应用程序。我有一个保存后要更新的开机自检信号,但想编写一个更新所有文档的批处理命令。

在此过程中,我想删除过时的文档(例如,在数据库中设置为非活动状态、被删除等(。

我从这样的事情开始:

    更新
  • 所有文档并存储更新/创建的 ID。
  • 创建一个巨大的排除查询
  • 删除所有匹配的文档

像这样:

for i in updated_ids:
    q = Q('match', **{'id': i})
    f = f | q if f else q
queryset = dt.search().query(Bool(filter=[~Q(f)]))
for stale in queryset.scan():
    stale.delete()

但是查询变得很长,并且失败了。

我想知道是否有更有效的方法可以做到这一点。

我在 elasticsearch.py 上使用 elasticsearch-dsl。Django-Haystack不是一个选择。

master分支(即将发布(中,您只需执行Search().delete()即可调用delete_by_query API。

我现在这样做:

for dt, updated_ids in self.updated.items():
   existing_ids_in_index = [d.id for d in dt.search().scan()]
   stale_ids = list(set(existing_ids_in_index) - set(updated_ids))
   for stale_id in stale_ids:
       dt.find_one('id', stale_id).delete()
   print("... {}: Removed {}.".format(dt.get_model().__name__, len(stale_ids)))

我可以通过delete_by_query进一步优化它,但我不确定细节。

相关内容

  • 没有找到相关文章

最新更新