训练自定义NER空间模型需要多少数据/上下文?



我正在尝试使用空格和命名实体识别从简历中提取以前的职位名称。

我想训练空间来检测自定义命名实体类型:'JOB'。为此,我在https://www.careerbuilder.com/browse/titles/上有大约800个职位名称,我可以将其用作训练数据。

在我的空间训练数据中,我是否需要将这些职位名称整合到添加的句子中以提供上下文?一般来说,在简历中,职位名称是独立存在的,并不是完整句子的一部分。

此外,如果我需要为800个标题中的每个标题提供连贯的上下文,那么对于我想做的事情来说,这将太耗时了,所以也许还有其他解决方案,而不是NER?

一般来说,命名实体识别依赖于单词的上下文,否则模型将无法检测到以前未见过的单词中的实体。因此,标题列表不能帮助你训练任何模型。你可以运行字符串匹配来查找简历文档中这800个头衔中的任何一个,你甚至可以保证找到所有这些头衔——尽管没有未知的头衔。

如果你能找到800(或更少)份真实的简历,并用你列表(或其他!)中的职位名称替换它们,那么你就可以训练一个能够进行NER的模型了。我想这是一条正确的路。只要从网上下载尽可能多的免费简历,看看能给你带来什么。如果数据不够,您可以扩充数据,例如通过将数据中的职位名称与列表中的一些职位名称交换。

相关内容

  • 没有找到相关文章

最新更新