我们应该总是先进行特征归一化,然后再进行特征约简吗?



有时使用PCA等方法执行特征缩减会减少特征数量,然后我们只能缩放相关变量。我们是否需要先进行归一化/缩放,然后再进行特征缩减?

我建议首先对特征数据进行归一化/缩放,然后进行特征选择。这是因为大多数特征选择技术都需要对数据进行有意义的表示。通过规范化你的数据,你的特征具有相同的数量级和分散度,这使得更容易找到其中哪个更相关。

例如,对于PCA,计算是基于特征的标准偏差(SD)来找到数据新投影的相关轴。如果你不规范化你的数据,高SD的特征将比小SD的特征具有更高的权重,在计算PCA时扭曲它们的相关性。

相关内容

  • 没有找到相关文章

最新更新