如何通过检查特定字段来避免在 Elasticsearch 中插入重复的文档



我的索引中有一个hash_file字段,并希望通过检查此字段来防止插入重复的文档。

  1. 如何检查何时插入数据(而不是插入前(?
  2. 使用批量功能如何检查?

ps:我使用版本6.8

为什么不使用hash_file字段的值作为文档 ID,以便每个给定的哈希值都有唯一的文档,并且您无需担心检查重复项。当然,除非您特别需要文档具有稍后要使用的某种类型的 ID。

如果您决定使用哈希值作为_id请记住 _id的大小限制为 512 字节,较大的值将被拒绝。

希望这有帮助。

最新更新