我应该如何从此文本文件构建实体识别模型

这可能是一个有点幼稚的问题，但请耐心等待。

我有一个这样的数据集。

Pretty    O
bad   O
storm O
here  O
last  O
evening   O
. O
From  O
Green O
Newsfeed  O
: O
AHFA  B-group
extends   O
deadline  O
for   O
Sage  O
Award O
to    O
Nov   O
. O

其中 O 是非实体的标签，类似地 B 组是组的标签。同样，其他一些实体也在那里。

我正在尝试构建一个名称实体识别模型。我遇到的所有模型都有句子，然后他们继续构建模型。就像他们通过处理它们直接从 API 获取所有单词的 PoS 标记一样。

但是如果我想在这里训练一个模型。有人可以向我建议一种方法，或者引导我使用资源吗？提前谢谢。

您可以为这种类型的数据或任何类似的模型训练BERT。POS 标记并非对于所有类型的模型都是强制性的，它只是为更好的模型预测添加了更多上下文。 BERT 训练 github 存储库：链接 1 大多数用于训练NER的模型使用CoNLL-2003数据集格式，其中不需要POS标签。还有其他用于训练NER的体系结构，例如XLNET。您还可以查看最新的拥抱面孔库，以便轻松实现不同的架构。

相关内容

最新更新

热门标签：