我想对一个多类数据集(由来自多个科学文章文件的标记句子组成)进行两种类型的分类。我想做的类似于这个https://www.cl.cam.ac.uk/~sht25/papers/aaai98.pdf。第一个是二元分类,从一个名为"other"的标签中去掉句子。剩下的将用于第二个分类,这是一个多类分类。
目前我被困在"我如何在多类数据集上进行二进制分类?"。我想做一个vs休息(ovr)分类,但从我看到的例子,内置的ovr将为所有类创建模型,并从那里做ovr。同时,我只想为一个标签重新做一遍,也就是"others"和其他所有人相比。请帮助。
创建一个新的标签列,如果标签为"other "否则赋值为0。然后使用新创建的标签列进行二元分类。我希望我正确理解了你的问题……