当前BERT基础无上限临床NER预测临床实体(问题、测试、治疗(
我想在不同的临床数据集上进行训练,以获得类似(疾病、医学、问题(的实体
如何做到这一点??
型号
Huggingface中有几个模型是在医学特定文章上训练的,它们肯定会比普通的bert-base-uncased
表现得更好。BioELECTRA就是其中之一,它在几个基准测试中成功地超过了现有的生物医学NLP模型。
根据预训练数据集的不同,这些模型有3个不同的版本。但我认为这两个将是最好的开始。
Bioelectra碱基鉴别器发布:在pubmed
上预训练
Bioelectra碱基鉴别器pubmed-pmc:在pubmed
和pmc
上预训练
NER数据集:
现在来到NER数据集,有几个数据集你可能喜欢,或者你可能想创建一个复合数据集。其中一些是-BC5-disease
、NCBI-disease
、BC5CDR-disease from BLUE benchmark
[如果您在创建模型或设置微调设置方面需要任何帮助,请告诉我。此外,请使用适当的指标对其进行评估,并在完成后共享指标仪表板。]