我使用自定义数据集训练spacy名称实体识别。有一个问题一直萦绕在我的脑海中,为什么spacy需要在注释中标记的开始和结束位置?
[
('I want apples', {'entities': [(2, 5, 'COMMAND'), (7, 12, 'FRUIT')]})
]
提前谢谢。
因为命名实体可以跨越多个令牌,例如:
("Who is Shaka Khan?", {"entities": [(7, 17, "PERSON")]}),
"Shaka Khan";将是一个带有PERSON标签的实体。
相反,如果您要注释
("Who is Shaka Khan?", {"entities": [(7, 12, "PERSON")]}),
则只有";Shaka";将是标记的实体。