我们是否需要排除OneHotEncoded列,同时使用MinMaxScaler()或StandardScaler()进行



这是标准化之前最后清理的DataFrame (df2)

我的代码:定标器= StandardScaler ()df2[列表(df2.columns)] = scaler.fit_transform (df2[列表(df2.columns)])df2

在标准化每个列后返回一个DataFrame,包括dummy和categories。这是正确的方式吗?还是应该在标准化时只指定数字列?

对于minmax标量来说,这并不重要,因为只有0和1的列将是一个单位。另一方面,standardscaler是一个有趣的工具。如果你把它应用到一个热编码的代码将从1减少到与你在这个特定类别中有多少个样本成比例的数字。这可以归结为一个经验问题,即什么对您的应用程序有效,因为这两种方法都是合理的。简单地将一切标准化是一种更加"统一"的方式。总的来说,这是一种更简单的方法,但最终ML是一个经验领域。做能为你带来最好结果的事。

相关内容

  • 没有找到相关文章

最新更新