何时应用数据白化



当我们使用代表不同特征且比例非常不同的特征(例如房屋中的房间数量和房价)时,数据白化(特征缩放和平均归一化)非常有用。

当特征表示"相似变量"但尺度非常不同时,情况如何?例如,假设我们有一个矩阵,表示环境中不同时刻不同物种的数量,我们希望将这些物种重新分组(例如,证明蚊子和鸟类种群非常相关)。在这个例子中,蚊子的数量比鸟类的数量大得多(比如十倍或一百倍)。白化这些数据是个好主意吗?

我认为每个特征的数值范围变化时应该应用数据缩放,应该应用于您描述的数据中

根据我对 SVM(liblinear) 的经验,训练模型的准确性可以通过数据缩放 10% 来提高。

通常我们会对 SVM 模型应用调节,以确保 wight 不会变得太大,而,如果数据没有缩放,功能1 比功能2大 100 倍,功能1 的权重应该比功能2小 100 倍,以平衡功能1 和功能2的效果(这意味着 w*x 是平衡的), 在这种情况下,尊重 Feature2 的权重将尝试增长(如果 Feature2 有效),但受到模型的约束,因此 Feature2 无法显示其效果。

最新更新