在ElasticSearch中,用稍后可能出现的批处理数据来丰富近实时数据的最佳方法是什么



我的弹性搜索中有两种类型的索引。第一个包含近乎实时更新的数据。第二个是我可以用来增强每晚更新的第一个数据。我是弹性搜索的新手,我想知道是否有什么好的模式可以让我轻松地用夜间批次更新流媒体数据。

我已经看了富集处理器,但在索引时,它似乎富集了。我掌握的浓缩数据可能在那里,也可能在当晚出现。

我的目标是创建一个仪表板,使用丰富索引来帮助识别我关心的流数据中的哪些文档;并最终增加更多的油田进行详细勘探。在SQL术语中:;计数流文档的ID存在于丰富数据中的文档的数量";,但考虑到这两个指数的巨大规模,我认为这几乎是一个JOIN,我应该避免。

扩展处理器可以在索引时运行,也可以在文档已经使用_update_by_query端点进行索引之后运行。

其想法是:您可以实时索引流媒体数据。一旦您的第二个数据集进入,您就可以创建一个新的索引来存储它,然后从中创建一个丰富索引,最后用enrich处理器更新您的第一个数据集。

最新更新