如何从RoBERTa中获得每个单词(令牌)的单个嵌入向量?



您可能知道,RoBERTa (BERT, etc.)有自己的标记器,有时您会获得给定单词的片段作为标记,例如embeddings»embed, #dings

由于我正在处理的任务的性质,我需要为每个单词提供一个单独的表示。我怎么得到它?

间隙:

句子:"嵌入很好";——比;给定3个单词标记
output: [embed,#dings,are,good]—>4个token out

当我把句子交给预训练的RoBERTa时,我得到编码的标记。最后,我需要每个令牌的表示。解决办法是什么?按点求和嵌入+ #标记?

我不确定是否有标准实践,但我看到其他人所做的只是简单地取子标记嵌入的平均值。示例:https://arxiv.org/abs/2006.01346,第2.3节第4行

最新更新