我有一个将模型推送到 elasticsearch 的 django 应用程序。我有一个保存后要更新的开机自检信号,但想编写一个更新所有文档的批处理命令。
在此过程中,我想删除过时的文档(例如,在数据库中设置为非活动状态、被删除等(。
我从这样的事情开始:
- 更新
- 所有文档并存储更新/创建的 ID。
- 创建一个巨大的排除查询
- 删除所有匹配的文档
像这样:
for i in updated_ids:
q = Q('match', **{'id': i})
f = f | q if f else q
queryset = dt.search().query(Bool(filter=[~Q(f)]))
for stale in queryset.scan():
stale.delete()
但是查询变得很长,并且失败了。
我想知道是否有更有效的方法可以做到这一点。
我在 elasticsearch.py 上使用 elasticsearch-dsl。Django-Haystack不是一个选择。
在master
分支(即将发布(中,您只需执行Search().delete()
即可调用delete_by_query
API。
我现在这样做:
for dt, updated_ids in self.updated.items():
existing_ids_in_index = [d.id for d in dt.search().scan()]
stale_ids = list(set(existing_ids_in_index) - set(updated_ids))
for stale_id in stale_ids:
dt.find_one('id', stale_id).delete()
print("... {}: Removed {}.".format(dt.get_model().__name__, len(stale_ids)))
我可以通过delete_by_query
进一步优化它,但我不确定细节。