德语单词的 spaCy 向量的差异文档和实现?



根据文档:

spaCy的小模型(所有以sm结尾的软件包(不附带 词向量,并且仅包含上下文相关张量。[...] 单个令牌不会分配任何向量。

但是当我使用de_core_news_sm模型时,令牌确实具有x.vectorx.has_vector=True的条目。

看起来这些是context_vectors,但据我了解,文档只有词向量可以通过vector属性访问,sm模型应该没有。为什么这对"小模型"有效?

has_vector的行为与您预期的不同。

这在对 github 上提出的问题的评论中进行了讨论。要点是,因为向量是可用的,所以它是True的,即使这些向量是上下文向量。请注意,您仍然可以使用它们,例如计算相似性。

引用spaCy贡献者Ines的话:

我们一直在反复讨论has_vector应该如何表现 像这样的案例。有一个向量,所以让它返回 False 将是 易误解的。同样,如果模型没有预先训练 词汇,从技术上讲,所有词素都是OOV。

2.1.0版本已宣布包含德语词向量。

相关内容

最新更新