自定义 NER 模型提取用于训练的关键字的子字符串

我使用 OpenNlp 的训练 API 训练了一个包含一百多万个句子的自定义 NER 模型，用于识别我所教的技能。在测试过程中，我发现模型识别技能和技能子串。例如，我教过一个技能"Core Java"，如果句子中有单词"Core"，那么我的模型会将其识别为一项技能。我想避免这种情况。我只想识别整个单词"Core Java"，如果整个单词都在测试句子中。

如何改进上述结果的自定义模型？

听起来你需要提供更多的训练示例。

如果单词Core唯一一次出现在训练数据中是作为短语Core Java的一部分，则模型可能会以 100% 的概率了解到Core是技能名称的一部分，并且基于它所知道的没有错。若要修复此问题，请在以不相关方式使用的地方添加更多训练数据。一些例子：

He threw away the apple core.
Core skills in math include addition and subtraction.
The core of the application is implemented in C for speed.

相关内容

最新更新

热门标签：