机器学习中的预处理分类属性


numpy.unique()  vs Pandas.get_dummies()

numpy.unique((将数据掩盖到所有k类别的数组中,并将每个值的索引返回为新列的索引,而get_dummies((只是创建每个具有(0,1(值的k列。

哪种将分类数据转换为数字的方法最适合机器学习,为什么?

用于预处理分类属性,这主要取决于这样的事实,即是否有有序的关系。

例如,像温度一样的属性由四个级别组成:非常高,高,中,低。这些称为序数变量,在这种情况下,将转换为数值索引是合理的。因此,很高变成" 1",高变成" 2",依此类推。

但是,如果该变量是一个名义变量,没有订购信息,则由于提供给模型的错误信息,数值索引很可能会导致结果差。例如,对于诸如性别的属性,将这些属性转换为男性的数值索引,而女性则是" 1",而女性则为" 2在大多数情况下,它们都是平等的,并且之间没有顺序。因此,创建每个变量具有二进制值的K列更有意义。

最新更新