我已经训练了斯坦福NER从文本中提取组织名称。我使用了 IO 标记格式。它工作正常。但是,我想知道将标签格式更改为 IOB(或其他格式(是否会提高分数。?
假设您有一个缺少正常标点符号的句子,如下所示:
约翰·山姆·泰德都在这里。
如果您没有 B 标签,您将无法判断这应该是三个实体还是一个带有三个单词的实体。
另一方面,对于许多常见类型的实体,它们不能在普通的英文文本中一起运行,因为它们之间至少会有一个逗号。
如果可以设置它,则在实体一起运行的情况下,使用 IOB 会更好,但根据您的数据集,这可能不是问题。你必须看看数据才能知道。