如本文所述,无论这些计算是基于正类还是负类,计算F-1分数(即计算召回率和精度)都很重要。例如,如果我有一个倾斜的数据集,其中1%的标签属于a类,99%的标签属于B类,而我只是给a分配阳性类别,并将所有测试项目归类为阳性,那么我的F-1分数将非常好。如何告诉scikit learn在二元分类中哪个类别是正类别?(如果有帮助,我可以提供代码。)
对于二进制分类,sklearn.metrics.f1_score
默认情况下会假设1是正类,0是负类。如果您使用这些约定(0
用于类别B,1
用于类别A),它应该会为您提供所需的行为。可以通过将pos_label
关键字参数传递给f1_score
函数来覆盖此行为。
请参阅:http://scikit-learn.org/stable/modules/generated/sklearn.metrics.f1_score.html