我应该如何从此文本文件构建实体识别模型



这可能是一个有点幼稚的问题,但请耐心等待。

我有一个这样的数据集。

Pretty    O
bad   O
storm O
here  O
last  O
evening   O
. O
From  O
Green O
Newsfeed  O
: O
AHFA  B-group
extends   O
deadline  O
for   O
Sage  O
Award O
to    O
Nov   O
. O

其中 O 是非实体的标签,类似地 B 组是的标签。 同样,其他一些实体也在那里。

我正在尝试构建一个名称实体识别模型。我遇到的所有模型都有句子,然后他们继续构建模型。就像他们通过处理它们直接从 API 获取所有单词的 PoS 标记一样。

但是如果我想在这里训练一个模型。 有人可以向我建议一种方法,或者引导我使用资源吗?提前谢谢。

您可以为这种类型的数据或任何类似的模型训练BERT。POS 标记并非对于所有类型的模型都是强制性的,它只是为更好的模型预测添加了更多上下文。 BERT 训练 github 存储库 : 链接 1 大多数用于训练NER的模型使用CoNLL-2003数据集格式,其中不需要POS标签。 还有其他用于训练NER的体系结构,例如XLNET。您还可以查看最新的拥抱面孔库,以便轻松实现不同的架构。

最新更新