逻辑回归只识别优势类

我正在参加旧金山Kaggle犯罪竞赛，目前我正在尝试多种不同的分类器来测试基准性能。我使用的是sklearn的LogisticRegressionClassifier，没有任何参数调整，我从sklearn.metrict.classification_report中注意到，它只预测主要类，即在我的训练集中出现次数最多的类。

直觉告诉我，这必须进行参数调整，但我不确定我必须推特哪些参数才能使分类器更了解不太重要的类（LogisticRegressionClassifier有很多）。目前，它只预测了38个或类似smth中的3个类，因此它肯定需要改进。

有什么想法吗？

如果您的模型只对主要类进行分类，那么您将面临类不平衡的问题。以下是一些在机器学习中解决这一问题的好读物。

逻辑回归是一种二元分类器，它使用一对全部或一对一技术进行多类分类，如果你有更多的输出类（在你的情况下是33个），这是不好的。尝试使用其他分类器。首先，使用softmax分类器，它是支持多类分类的逻辑分类器的扩展。在scikit learn中，将multi_class变量设置为multinomial以使用softmax回归。

改进模型的另一种方法是使用GridSearch进行参数调整。

顺便说一句，我建议你也使用其他型号。

相关内容

最新更新

热门标签：