您可能知道,RoBERTa (BERT, etc.)
有自己的标记器,有时您会获得给定单词的片段作为标记,例如embeddings»embed, #dings
由于我正在处理的任务的性质,我需要为每个单词提供一个单独的表示。我怎么得到它?
间隙:
句子:"嵌入很好";——比;给定3个单词标记
output: [embed,#dings,are,good]—>4个token out
当我把句子交给预训练的RoBERTa时,我得到编码的标记。最后,我需要每个令牌的表示。解决办法是什么?按点求和嵌入+ #标记?
我不确定是否有标准实践,但我看到其他人所做的只是简单地取子标记嵌入的平均值。示例:https://arxiv.org/abs/2006.01346,第2.3节第4行