这可能是一个有点幼稚的问题,但请耐心等待。
我有一个这样的数据集。
Pretty O bad O storm O here O last O evening O . O From O Green O Newsfeed O : O AHFA B-group extends O deadline O for O Sage O Award O to O Nov O . O
其中 O 是非实体的标签,类似地 B 组是组的标签。 同样,其他一些实体也在那里。
我正在尝试构建一个名称实体识别模型。我遇到的所有模型都有句子,然后他们继续构建模型。就像他们通过处理它们直接从 API 获取所有单词的 PoS 标记一样。
但是如果我想在这里训练一个模型。 有人可以向我建议一种方法,或者引导我使用资源吗?提前谢谢。
您可以为这种类型的数据或任何类似的模型训练BERT。POS 标记并非对于所有类型的模型都是强制性的,它只是为更好的模型预测添加了更多上下文。 BERT 训练 github 存储库 : 链接 1 大多数用于训练NER的模型使用CoNLL-2003数据集格式,其中不需要POS标签。 还有其他用于训练NER的体系结构,例如XLNET。您还可以查看最新的拥抱面孔库,以便轻松实现不同的架构。