Elasticsearch 每日滚动索引包含重复_id



这可能是一个愚蠢的问题,但我正在使用每日滚动索引使用 logstash 保存我的事件,配置很简单:

input: {..source..}
filter: {..filter..}
output: {
 elasticsearch: {
   document_id: %{my_own_guarantee_unique_id}
   index: myindex-%{+YYYY.MM.DD}
 }
}

我发现,如果在不同的日子出现具有相同my_own_guarantee_unique_id的事件,则会在这些每日滚动索引中多次创建,即。 您可以在 MyIndex-2015.06.21 和 MyIndex-2015.06.22 中找到 _id = 123

的事件

这种重复是开箱即用的吗? 我应该怎么做才能避免它? 任何建议或阅读将不胜感激,谢谢!

由于您正在使用多个索引,每天一个索引,因此您可以获得相同的_id。使文档独特的是 uid,它是索引、类型和 id 的组合。据我所知,弹性没有办法改变这一点。

我遇到了完全相同的问题:几个具有相同 id 但索引不同的重复文档(我有 1 个索引/日期)。

对我有用的是生成一个带有索引名称的字段,并在 logstash 配置的输出部分中重用它。

index => "%{index_name}"
document_id => "%{clickID}"

相关内容

  • 没有找到相关文章

最新更新