我想知道,假设我有 10 个自定义实体来识别我应该给出多少带注释的训练句子(任何粗略的想法(??
谢谢你,提前!! :)
我是新手,请帮忙
对于开发自定义 ner 模型,每个实体至少需要出现 50-100 次以及它们的正确上下文。否则,如果您的数据少于自定义模型将过度拟合的数据。因此,根据您的数据,您将至少需要 200 到 300 个句子。
对于 Paccy 的自定义 NER 模型,每个实体肯定需要大约 100 个样本,而数据集中也没有任何偏差。
所有这些都是根据我的经验。
建议-: 您可以探索空间自定义模型,但对于生产级别或一些好的项目,您不能完全依赖它,您必须同时进行一些 NLP/关系提取等。
希望这有帮助。