通过空格的表情符号向量



总之,空间中的表情向量?这些记录在哪里?


import spacy
nlp = spacy.load('en_core_web_sm')
a = "🔥"
b = "❄️"
v = "🥑"
h = "💔"
l = "💌"
e = [a,b,v,h,l]
# emoji vector
ev = [nlp(emoji).vector for emoji in e]
# numpy array
ev = np.array(ev)
ev.shape

形状是(5, 96),所以我很好奇在哪里我可以了解更多关于向量的来源。起初,我认为这些是OOV,但是:

ev.sum(axis=1)

收益率

array([2.906692 , 3.8687153, 1.2295313, 3.986846 , 1.9255924],
dtype=float32)

以上均为Colab截至2021年2月21日的环境

sm模型不包含词向量。如果没有任何词向量,token.vector返回token.tensor作为回退,这是来自tagger分量的上下文敏感张量。查看这里的第一个警告框:https://v2.spacy.io/usage/vectors-similarity

如果你想要单词向量,使用mdlg模型代替,然后表情符号将是OOV,token.vector将返回一个全0的300d向量。

相关内容

  • 没有找到相关文章

最新更新