机器学习中的预处理分类属性

numpy.unique()  vs Pandas.get_dummies()

numpy.unique((将数据掩盖到所有k类别的数组中，并将每个值的索引返回为新列的索引，而get_dummies((只是创建每个具有(0,1(值的k列。

哪种将分类数据转换为数字的方法最适合机器学习，为什么？

用于预处理分类属性，这主要取决于这样的事实，即是否有有序的关系。

例如，像温度一样的属性由四个级别组成：非常高，高，中，低。这些称为序数变量，在这种情况下，将转换为数值索引是合理的。因此，很高变成" 1"，高变成" 2"，依此类推。

但是，如果该变量是一个名义变量，没有订购信息，则由于提供给模型的错误信息，数值索引很可能会导致结果差。例如，对于诸如性别的属性，将这些属性转换为男性的数值索引，而女性则是" 1"，而女性则为" 2在大多数情况下，它们都是平等的，并且之间没有顺序。因此，创建每个变量具有二进制值的K列更有意义。

相关内容