我的熊猫数据帧中有近 200 000 行元组。我将这些数据注入到弹性搜索中。现在,当我运行程序时,它应该检查弹性搜索中已经存在的当前数据(如果不存在(是否插入其中。
我建议不要担心它,只需将所有内容加载到Elasticsearch中即可。只要您的_id
一致,现有文档就会被覆盖而不是重复。因此,只要确保为每个文档指定一个_id
就可以了,elasticsearch-py
客户端中的bulk
助手都支持您为每个文档设置_id
值。