逻辑回归只识别优势类



我正在参加旧金山Kaggle犯罪竞赛,目前我正在尝试多种不同的分类器来测试基准性能。我使用的是sklearn的LogisticRegressionClassifier,没有任何参数调整,我从sklearn.metrict.classification_report中注意到,它只预测主要类,即在我的训练集中出现次数最多的类。

直觉告诉我,这必须进行参数调整,但我不确定我必须推特哪些参数才能使分类器更了解不太重要的类(LogisticRegressionClassifier有很多)。目前,它只预测了38个或类似smth中的3个类,因此它肯定需要改进。

有什么想法吗?

如果您的模型只对主要类进行分类,那么您将面临类不平衡的问题。以下是一些在机器学习中解决这一问题的好读物。

逻辑回归是一种二元分类器,它使用一对全部或一对一技术进行多类分类,如果你有更多的输出类(在你的情况下是33个),这是不好的。尝试使用其他分类器。首先,使用softmax分类器,它是支持多类分类的逻辑分类器的扩展。在scikit learn中,将multi_class变量设置为multinomial以使用softmax回归。

改进模型的另一种方法是使用GridSearch进行参数调整。

顺便说一句,我建议你也使用其他型号。

最新更新