所以,我知道在R中你可以以这种形式为逻辑回归提供数据:
model <- glm( cbind(count_1, count_0) ~ [features] ..., family = 'binomial' )
有没有办法用sklearn.linear_model做类似cbind(count_1, count_0)
的事情。逻辑回归?还是我实际上必须提供所有这些重复的行? (我的功能是分类的,所以会有很多冗余。
如果它们是分类的 - 你应该提供它的二值化版本。我不知道 R 中的代码是如何工作的,但您应该始终对分类特征进行二进制化。因为您必须强调特征的每个值都与其他值无关,即对于可能值为 1,2,3,4 的特征"blood_type",您的分类器必须学习 2 与 3 无关,4 在任何意义上都与 1 无关。这些是通过二值化实现的。
如果在二值化后有太多特征 - 可以通过 FeatureHasher 或更复杂的方法(如 PCA)降低二值化数据集的维数。