如何为huggingface bert基础的无帽临床NER创建培训管道



当前BERT基础无上限临床NER预测临床实体(问题、测试、治疗(

我想在不同的临床数据集上进行训练,以获得类似(疾病、医学、问题(的实体

如何做到这一点??

型号

Huggingface中有几个模型是在医学特定文章上训练的,它们肯定会比普通的bert-base-uncased表现得更好。BioELECTRA就是其中之一,它在几个基准测试中成功地超过了现有的生物医学NLP模型。

根据预训练数据集的不同,这些模型有3个不同的版本。但我认为这两个将是最好的开始。

Bioelectra碱基鉴别器发布:在pubmed上预训练

Bioelectra碱基鉴别器pubmed-pmc:在pubmedpmc上预训练

NER数据集:

现在来到NER数据集,有几个数据集你可能喜欢,或者你可能想创建一个复合数据集。其中一些是-BC5-diseaseNCBI-diseaseBC5CDR-disease from BLUE benchmark

[如果您在创建模型或设置微调设置方面需要任何帮助,请告诉我。此外,请使用适当的指标对其进行评估,并在完成后共享指标仪表板。]

最新更新