size(embedding_model)的含义是什么?



我想确定我理解正确:

使用嵌入模型的长度意味着它包含的不同令牌的数量?

即:

from gensim import downloader
embedding_model = downloader.load('glove-wiki-gigaword-50')
print(len(embedding_model))

输出:

400000 

表示:glove-wiki-gigaword-50有400000个不同的令牌(字),每个令牌(字)的大小为50字节?

是的,len(model)在这个例子中给出了里面的单词数。

model.vector_size将给你每个向量的维数(不是字节)。(以字节为单位的向量的实际大小将是维度数的4倍,因为每个float32大小的值占用4个字节。)

我通常建议不要使用Gensimapi.downloader功能:如果你发现&手动从原始来源下载文件,你会更好地了解他们的内容,格式,&限制—以及文件在本地文件系统中的位置。并且,到那时,使用特定的类/方法来加载文件,您将更好地理解您正在使用的类/对象的类型,而不是downloader.load()可能给您的任何神秘对象。

最新更新