在SpaCy上计算文本的平均向量

我正在使用 SpaCy 计算 de 几个文档之间的距离，我的方法如下：

1)将文本转换为空间对象 2) 删除停用词 3)对于剩余的每个单词，获取向量表示并计算平均值。 4)使用几种方法来测量文档之间的距离。

我对这种方法的问题是，大文档需要很长时间。

我发现空间有一种称为相似性的方法，可以更快地做到这一点：

nlp_latin = spacy.load("/tmp/la_vectors_wiki_lg")
doc1 = nlp_latin(u"Caecilius est in horto")
doc2 = nlp_latin(u"servus est in atrio")
doc1.similarity(doc2)

但是它只使用余弦距离，有没有一种方法只返回文档的平均向量？

只是为这个线程的未来访问者扩展上面评论中的答案：

根据 SpaCy 文档，SpaCy 中的Doc类有一个属性vector，该属性返回其令牌向量的平均值。

对于您的用例，在加载 SpaCy 后，以下代码将为您提供拉丁文本"Caecilius est in horto"的平均向量

doc = nlp_latin(u"Caecilius est in horto")
doc.vector

提高性能的旁注：

即使您只使用 SpaCy 管道的分词器组件，SpaCy 也会在调用spacy.load时加载其他组件(即"解析器"、"ner"、"标记器"和"textcat")。因此，加载它们会大大降低性能。要解决此问题，您可以通过将exclude参数添加到spacy.load函数来排除这些附加组件，如下所示(有关详细信息，请查看有关处理管道的 Spacy 文档)。

nlp_latin = spacy.load("/tmp/la_vectors_wiki_lg", exclude=["parser", "ner", "tagger", "textcat"])

同样，由于您仅使用 SpaCy 将原始文本转换为标记，因此您可以将nlp_latin函数调用替换为nlp_latin.make_doc。平均令牌向量可以像以前一样使用doc.vector检索。这可确保 SpaCy 仅在nlp_latin调用后使用分词器，从而使您的代码更快。有关更多信息，请查看此链接的扩展和性能部分

相关内容

最新更新

热门标签：