识别上下文的命名实体识别

我使用NER模型提取文本中存在的治疗(冰、热或OTC(，但该治疗有多个上下文。

NER模型在上述所有句子中提取冰袋作为治疗实体，但我如何使其了解上下文，并进一步确定治疗是家庭护理建议还是在临床中。上下文应该根据周围的单词来学习(继续和跟随两者(。

对于这个用例，我应该使用什么技术？我不想在NER之上使用基于规则的技术，我已经使用过了，但我希望以更复杂的方式做到这一点。

对于实体识别，我使用预先训练的生物医学NER(来自Scispacy-libaray(，并使用实体规则将我的自定义实体添加到其中。

我建议您将其视为一个分类问题。给定像你的例子这样的句子，训练一个分类器来预测像HOME/CLINIC/OTHER这样的标签。标记示例应该很容易，并且可以使用spaCy-textcat模型。

需要注意的一件事是，你知道数据中每个标签的大致比例是多少吗？如果它真的不平衡，那可能是一个问题，你可能需要稍微改变一下你的方法。

你也可以为LOCATION添加一个NER标签，但我怀疑这会更难标记，而且与你的数据不太匹配。

另一种方法，其主要优点是测试速度快，是识别介词短语，如"；在某处"；，或"；在"某处"；。使用它，你可能会发现只匹配一个短语，比如"；在家"；标记数据集的很大一部分。我知道你说你想使用更复杂的东西，但如果简单的东西有效，那就值得使用。

相关内容