何时应用数据白化

当我们使用代表不同特征且比例非常不同的特征（例如房屋中的房间数量和房价）时，数据白化（特征缩放和平均归一化）非常有用。

当特征表示"相似变量"但尺度非常不同时，情况如何？例如，假设我们有一个矩阵，表示环境中不同时刻不同物种的数量，我们希望将这些物种重新分组（例如，证明蚊子和鸟类种群非常相关）。在这个例子中，蚊子的数量比鸟类的数量大得多（比如十倍或一百倍）。白化这些数据是个好主意吗？

我认为每个特征的数值范围变化时应该应用数据缩放，应该应用于您描述的数据中

根据我对 SVM（liblinear）的经验，训练模型的准确性可以通过数据缩放 10% 来提高。

通常我们会对 SVM 模型应用调节，以确保 wight 不会变得太大，而，如果数据没有缩放，功能1 比功能2大 100 倍，功能1 的权重应该比功能2小 100 倍，以平衡功能1 和功能2的效果（这意味着 w*x 是平衡的），在这种情况下，尊重 Feature2 的权重将尝试增长（如果 Feature2 有效），但受到模型的约束，因此 Feature2 无法显示其效果。

相关内容

最新更新

热门标签：