将最小最大缩放应用于测试集不是很危险吗?



这是我担心的情况。

假设我有一个用最小-最大比例数据训练的模型。我想测试我的模型,所以我还用训练阶段使用的旧缩放器缩放了测试数据集。然而,我的新测试数据是最新的最小值,所以缩放器返回负值。

据我所知,最小值和最大值并不是那么稳定,尤其是在加密货币数据等波动性数据集中。在这种情况下,我应该更新我的缩放器吗?还是我应该重新培训我的模特?

我碰巧不同意@Sharan_Sundar的观点。缩放的目的是将所有特征放在一个单独的缩放上,而不是严格确保它们位于区间[0,1]内。这可能非常重要,尤其是在考虑正则化技术时,即惩罚大系数(无论它们是线性回归系数还是神经网络权重(。特征缩放和正则化的结合有助于确保您的模型能够推广到未观测到的数据。

基于"测试"数据进行缩放不是一个好主意,因为正如您所指出的,在实践中,您可以很容易地观察到不在原始观测范围内的新数据点。您的模型需要对此保持稳健。

一般来说,我建议考虑不同的缩放例程。scikitslearn的MinMaxScaler是一个,StandardScaler也是一个(减去平均值并除以标准差(。如果你的目标变量,加密货币价格可以在多个数量级上变化,那么使用对数函数来缩放你的一些变量可能是值得的。这就是数据科学成为一门艺术的地方——这里不一定有一个"正确"的答案。

(编辑(-另请参阅:是否对训练和测试数据分别应用最小-最大缩放?

理想情况下,您应该首先进行扩展,然后只分为测试和训练。但在实时场景中,使用具有显著差异的动态变化最小值和最大值的数据的最小-最大缩放器并不可取。

最新更新