使用空间蟒蛇的自定义NER需要多少训练数据(句子)?[只是粗略的想法]



我想知道,假设我有 10 个自定义实体来识别我应该给出多少带注释的训练句子(任何粗略的想法(??

谢谢你,提前!! :)

我是新手,请帮忙

对于开发自定义 ner 模型,每个实体至少需要出现 50-100 次以及它们的正确上下文。否则,如果您的数据少于自定义模型将过度拟合的数据。因此,根据您的数据,您将至少需要 200 到 300 个句子。

对于 Paccy 的自定义 NER 模型,每个实体肯定需要大约 100 个样本,而数据集中也没有任何偏差。

所有这些都是根据我的经验。

建议-: 您可以探索空间自定义模型,但对于生产级别或一些好的项目,您不能完全依赖它,您必须同时进行一些 NLP/关系提取等。

希望这有帮助。

最新更新