我想确定我理解正确:
使用嵌入模型的长度意味着它包含的不同令牌的数量?
即:
from gensim import downloader
embedding_model = downloader.load('glove-wiki-gigaword-50')
print(len(embedding_model))
输出:
400000
表示:glove-wiki-gigaword-50
有400000个不同的令牌(字),每个令牌(字)的大小为50字节?
是的,len(model)
在这个例子中给出了里面的单词数。
model.vector_size
将给你每个向量的维数(不是字节)。(以字节为单位的向量的实际大小将是维度数的4倍,因为每个float32
大小的值占用4个字节。)
我通常建议不要使用Gensimapi.downloader
功能:如果你发现&手动从原始来源下载文件,你会更好地了解他们的内容,格式,&限制—以及文件在本地文件系统中的位置。并且,到那时,使用特定的类/方法来加载文件,您将更好地理解您正在使用的类/对象的类型,而不是downloader.load()
可能给您的任何神秘对象。