我正在使用Python中的逻辑回归模型(scikit learn)处理分类问题。我的一个特点是性别。在原始数据集中,此变量是一个字符串(男性、女性)。我使用了熊猫的 get_dummies 方法,它创建了 2 列,其中包含 0,1 个值。每节课一个。
我的问题是,我应该使用 2 个不同的列,还是像 male (0,1) 这样的单列?
我个人喜欢对具有n
类别的字段使用n - 1
列。使用 get_dummies
方法时,这意味着将drop_first
设置为 True。
至于为什么我喜欢这样做;我的一位前讲师在回答sckikit learn中的一个热编码与虚拟编码时很好地解释了这一点。基本上,它归结为消除共线性。