我想从文本中识别职位名称。如何通过扩展我的小训练数据集来创建更大的训练数据集?是否存在一些现成的扩展培训包或开放项目?
作为O*Net(美国劳工部职业数据计划)的一部分,有一组约44000个职位头衔及其相应的标准职位代码。你可以在这里下载文件:
https://www.onetcenter.org/database.html#occ
对于这种请求,您可以向语料库邮件列表发送电子邮件:
http://www.hit.uib.no/corpora/welcome.html