Gensim的相似性：它是如何工作的？

我想知道与gensim的相似性如何？如何创建不同的分片，以及仅在查找前 N 个类似文档时是否会提高性能？更一般地说，是否有关于 gensim 内部结构的文档？

gensim内部的文档是完整的源代码：

https://github.com/RaRe-Technologies/gensim

对于这样的高维数据，找到精确的前N个最相似的向量通常需要对所有候选者进行详尽的搜索。也就是说，没有简单的分片可以允许忽略大多数向量，因为距离太远，并且仍然提供精确的结果。

有一些近似索引技术，如 ANNOY，可以加快搜索速度......但他们往往会错过一些真正的前 N 名结果。Gensim包括一个使用ANNOY-indexing的演示笔记本，支持gensim的word2vec。(应该可以对其他文本向量执行类似操作，例如您链接的教程中的词袋表示形式。

相关内容