小贝子编程

你能在 sklearn 逻辑回归输入中使用计数吗?

本文关键字：sklearn 回归 python scikit-learn logistic-regression bernoulli-probability
更新时间 : 2023-08-31
英文 : Can you use counts in sklearn logistic regression input?

所以，我知道在R中你可以以这种形式为逻辑回归提供数据：

model <- glm( cbind(count_1, count_0) ~ [features] ..., family = 'binomial' )

有没有办法用sklearn.linear_model做类似cbind(count_1, count_0)的事情。逻辑回归？还是我实际上必须提供所有这些重复的行？（我的功能是分类的，所以会有很多冗余。

如果它们是分类的 - 你应该提供它的二值化版本。我不知道 R 中的代码是如何工作的，但您应该始终对分类特征进行二进制化。因为您必须强调特征的每个值都与其他值无关，即对于可能值为 1,2,3,4 的特征"blood_type"，您的分类器必须学习 2 与 3 无关，4 在任何意义上都与 1 无关。这些是通过二值化实现的。

如果在二值化后有太多特征 - 可以通过 FeatureHasher 或更复杂的方法（如 PCA）降低二值化数据集的维数。

你能在 sklearn 逻辑回归输入中使用计数吗?

相关内容

最新更新

热门标签：