spacy的令牌向量中使用的模型架构是什么(英语)



我很可能错过了一些明显的东西,但是在space的英语媒介模型中使用了什么方法/模型来训练Token向量?是word2vec吗?深度学习架构?只是好奇是用什么来估计这些嵌入的。

英文向量为GloVe Common Crawl向量。大多数其他语言都有来自OSCAR Common Crawl + Wikipedia的自定义fastText向量。这些源应该包含在模型元数据中,但是看起来向量信息在3.0.0模型版本中被意外地遗漏了。

最新更新