小贝子编程

使用空间蟒蛇的自定义NER需要多少训练数据(句子)?[只是粗略的想法]

本文关键字：句子自定义空间 NER 多少数据 python machine-learning spacy named-entity-recognition
更新时间 : 2023-09-16
英文 : How many training data(sentences) are required for custom NER using spacy python?[Just rought idea]

我想知道，假设我有 10 个自定义实体来识别我应该给出多少带注释的训练句子(任何粗略的想法(？？

谢谢你，提前！！ :)

我是新手，请帮忙

对于开发自定义 ner 模型，每个实体至少需要出现 50-100 次以及它们的正确上下文。否则，如果您的数据少于自定义模型将过度拟合的数据。因此，根据您的数据，您将至少需要 200 到 300 个句子。

对于 Paccy 的自定义 NER 模型，每个实体肯定需要大约 100 个样本，而数据集中也没有任何偏差。

所有这些都是根据我的经验。

建议-：您可以探索空间自定义模型，但对于生产级别或一些好的项目，您不能完全依赖它，您必须同时进行一些 NLP/关系提取等。

希望这有帮助。

相关内容