为什么spacy在标记注释中需要起始和结束位置

  • 本文关键字:位置 结束 注释 spacy spacy
  • 更新时间 :
  • 英文 :


我使用自定义数据集训练spacy名称实体识别。有一个问题一直萦绕在我的脑海中,为什么spacy需要在注释中标记的开始和结束位置?

[
('I want apples', {'entities': [(2, 5, 'COMMAND'), (7, 12, 'FRUIT')]})
]

提前谢谢。

因为命名实体可以跨越多个令牌,例如:

("Who is Shaka Khan?", {"entities": [(7, 17, "PERSON")]}),

"Shaka Khan";将是一个带有PERSON标签的实体。

相反,如果您要注释

("Who is Shaka Khan?", {"entities": [(7, 12, "PERSON")]}),

则只有";Shaka";将是标记的实体。

最新更新