如何在弹性搜索中索引文档



我有数百万个(pdf、docx、doc(文件,每个文件可能包含2-4页左右的文本。

我的问题是,我有一个用例,其中我有一份文档,我想从数百万个文件中获得类似的文档。(即,将一个文档与所有其他文档进行匹配并获得n个匹配项(

我可以使用弹性搜索吗?它是可扩展的吗?在这种情况下,我应该如何索引文档?我只是从pdf文档中提取文本并将其存储在json对象中,然后使用弹性搜索将其作为文档插入到索引中吗。

这是最有效的解决方案吗?

您可以使用filebeat代理(ELK堆栈的一部分(安装到生成文件的源服务器中。它可以将所有文档导出到kafka主题中(以便保留(。在Elastic中,你可以创建管道来拉取、解析、匹配和转换你想要做的数据。你还可以基于组id创建多个管道,这样每个新管道都可以再次拉取同一组数据,并基于新逻辑解析/匹配/转换。它具有可扩展性,可供未来使用。

最新更新