哪种标记格式最适合训练斯坦福NER(IO / IOB)?

  • 本文关键字:NER 斯坦福 IO IOB 格式 crf
  • 更新时间 :
  • 英文 :


我已经训练了斯坦福NER从文本中提取组织名称。我使用了 IO 标记格式。它工作正常。但是,我想知道将标签格式更改为 IOB(或其他格式(是否会提高分数。?

假设您有一个缺少正常标点符号的句子,如下所示:

约翰·山姆·泰德都在这里。

如果您没有 B 标签,您将无法判断这应该是三个实体还是一个带有三个单词的实体。

另一方面,对于许多常见类型的实体,它们不能在普通的英文文本中一起运行,因为它们之间至少会有一个逗号。

如果可以设置它,则在实体一起运行的情况下,使用 IOB 会更好,但根据您的数据集,这可能不是问题。你必须看看数据才能知道。

最新更新