Spacy 'en_core_web_sm' 的词汇长度



我正在使用macbook并尝试从udemy课程中学习NLP。我的空间库的长度是len(doc.vocab)=532,然而在视频中相同的长度是57000左右。我也下载了大版,没什么变化。

len(doc.vocab)是缓存的词汇的数量,因此当您在某些单词上使用模型时,它可能会发生变化。

len(doc.vocab.strings)将字符串映射到哈希值,反之亦然。它可以给你一些不同的字符串。例如,对于en_core_web_md型号,这将为您提供701800。

相关内容

  • 没有找到相关文章

最新更新