自定义 NER 模型提取用于训练的关键字的子字符串



我使用 OpenNlp 的训练 API 训练了一个包含一百多万个句子的自定义 NER 模型,用于识别我所教的技能。在测试过程中,我发现模型识别技能和技能子串。例如,我教过一个技能"Core Java",如果句子中有单词"Core",那么我的模型会将其识别为一项技能。我想避免这种情况。我只想识别整个单词"Core Java",如果整个单词都在测试句子中。

如何改进上述结果的自定义模型?

听起来你需要提供更多的训练示例。

如果单词Core唯一一次出现在训练数据中是作为短语Core Java的一部分,则模型可能会以 100% 的概率了解到Core是技能名称的一部分,并且基于它所知道的没有错。若要修复此问题,请在以不相关方式使用的地方添加更多训练数据。一些例子:

He threw away the apple core.
Core skills in math include addition and subtraction.
The core of the application is implemented in C for speed.

最新更新