识别上下文的命名实体识别



我使用NER模型提取文本中存在的治疗(冰、热或OTC(,但该治疗有多个上下文。

  1. 建议患者在家使用冰袋敷膝[治疗-家庭护理]
  2. 病人在诊所接受了冰袋治疗

NER模型在上述所有句子中提取冰袋作为治疗实体,但我如何使其了解上下文,并进一步确定治疗是家庭护理建议还是在临床中。上下文应该根据周围的单词来学习(继续和跟随两者(。

对于这个用例,我应该使用什么技术?我不想在NER之上使用基于规则的技术,我已经使用过了,但我希望以更复杂的方式做到这一点。

对于实体识别,我使用预先训练的生物医学NER(来自Scispacy-libaray(,并使用实体规则将我的自定义实体添加到其中。

我建议您将其视为一个分类问题。给定像你的例子这样的句子,训练一个分类器来预测像HOME/CLINIC/OTHER这样的标签。标记示例应该很容易,并且可以使用spaCy-textcat模型。

需要注意的一件事是,你知道数据中每个标签的大致比例是多少吗?如果它真的不平衡,那可能是一个问题,你可能需要稍微改变一下你的方法。

你也可以为LOCATION添加一个NER标签,但我怀疑这会更难标记,而且与你的数据不太匹配。

另一种方法,其主要优点是测试速度快,是识别介词短语,如";在某处";,或";在"某处";。使用它,你可能会发现只匹配一个短语,比如";在家";标记数据集的很大一部分。我知道你说你想使用更复杂的东西,但如果简单的东西有效,那就值得使用。

最新更新