在过去的几天里,我刚刚花了几天的时间为在 elasticsearch 中索引的文档实现潜在语义分析。第一步是构建术语文档矩阵。所以我认为使用斯坦福 nlp 库作为输入索引意味着小写,删除停用词,也许进行词干提取并生成矩阵,或者只是可以使用 elasticsearch java API 来构建它?
是的_analyze
您可以使用 elasticsearch 的终点,对文本执行tokenizing/character mapping/stemming/...
并返回结果。