小贝子编程

具有 2 个类的虚拟变量.它应该在单列还是多列中

本文关键字：单列虚拟变量具有 python machine-learning scikit-learn
更新时间 : 2023-09-08
英文 : Dummy variable with 2 classes. Should it be in a single or multiple columns?

我正在使用Python中的逻辑回归模型（scikit learn）处理分类问题。我的一个特点是性别。在原始数据集中，此变量是一个字符串（男性、女性）。我使用了熊猫的 get_dummies 方法，它创建了 2 列，其中包含 0,1 个值。每节课一个。

我的问题是，我应该使用 2 个不同的列，还是像 male （0,1）这样的单列？

我个人喜欢对具有n类别的字段使用n - 1列。使用 get_dummies 方法时，这意味着将drop_first设置为 True。

至于为什么我喜欢这样做;我的一位前讲师在回答sckikit learn中的一个热编码与虚拟编码时很好地解释了这一点。基本上，它归结为消除共线性。

相关内容