Gensim的相似性:它是如何工作的?



我想知道与gensim的相似性如何?如何创建不同的分片,以及仅在查找前 N 个类似文档时是否会提高性能?更一般地说,是否有关于 gensim 内部结构的文档?

gensim内部的文档是完整的源代码:

https://github.com/RaRe-Technologies/gensim

对于这样的高维数据,找到精确的前N个最相似的向量通常需要对所有候选者进行详尽的搜索。也就是说,没有简单的分片可以允许忽略大多数向量,因为距离太远,并且仍然提供精确的结果。

有一些近似索引技术,如 ANNOY,可以加快搜索速度......但他们往往会错过一些真正的前 N 名结果。Gensim包括一个使用ANNOY-indexing的演示笔记本,支持gensim的word2vec。(应该可以对其他文本向量执行类似操作,例如您链接的教程中的词袋表示形式。

最新更新