总之,空间中的表情向量?这些记录在哪里?
import spacy
nlp = spacy.load('en_core_web_sm')
a = "🔥"
b = "❄️"
v = "🥑"
h = "💔"
l = "💌"
e = [a,b,v,h,l]
# emoji vector
ev = [nlp(emoji).vector for emoji in e]
# numpy array
ev = np.array(ev)
ev.shape
形状是(5, 96)
,所以我很好奇在哪里我可以了解更多关于向量的来源。起初,我认为这些是OOV,但是:
ev.sum(axis=1)
收益率
array([2.906692 , 3.8687153, 1.2295313, 3.986846 , 1.9255924],
dtype=float32)
以上均为Colab截至2021年2月21日的环境
sm
模型不包含词向量。如果没有任何词向量,token.vector
返回token.tensor
作为回退,这是来自tagger
分量的上下文敏感张量。查看这里的第一个警告框:https://v2.spacy.io/usage/vectors-similarity
如果你想要单词向量,使用md
或lg
模型代替,然后表情符号将是OOV,token.vector
将返回一个全0的300d向量。