获取文本字段中最常用的 10 个单词



我有一个包含数千个文档的索引,每个文档都有一个全文字段。

我想搜索所有这些字段并获取最常返回的 10 个最常见的单词。

如果可能的话,我还想要一种在 Kibana 上可视化它的方法。

实现

此目的的最常见方法是使用keyword datatype复制全文字段。这将使您能够在该领域进行terms aggregation - 文档在这里。也许您可以考虑在这里做一个significant term aggregation - doc,从而避免出现停用词和常用词。在 ES 6.x 中,您也可以在此处使用 significant text aggregation - doc,而无需创建keyword字段,但我从未尝试过,我不知道它是如何工作的。相反,如果您需要检索每个文档的单词频率,则应在此处使用 termvector - doc

最新更新