Solr 6指数含量以间隔为单位



我正在使用solr 6,我的要求是查找其中重复了5个连续单词(用空格分隔(的文档。

因此,为了实现这一目标,我计划索引 5 个单词的内容,例如,如果我的内容是"快速的棕色狐狸跳过懒惰的狗",它应该索引为"快速的棕色狐狸跳"、"快速的棕色狐狸跳过"、"棕色狐狸跳过"。

为了配置分词器,我参考了这个维基,但没有找到任何可以提供的分词器可以解决这个问题。所以我正在寻找一种方法来创建新的分词器类,或者通过使用提供的分词器来解决我的问题的任何其他方式。如果有人能帮助我解决这个问题,那将是可观的。

您使用 Shingle 过滤器正是为此目的。它是一个过滤器,而不是分词器,但可以满足您的需求。

最新更新