何时使用 zscore 规范化数据(拆分之前或之后)



我正在参加一个 udemy 课程,该课程为仅规范化训练数据(从测试数据中分离后(提供了强有力的理由,因为该模型通常由新数据使用,具有原始集规模的特征。如果您缩放测试数据,那么您就没有正确对模型进行评分。

另一方面,我发现我的双类逻辑回归模型(使用 Azure 机器学习工作室创建(在 Z-Score 仅缩放训练数据后得到了糟糕的结果。

一个。这是否仅是 Azure 工具的问题? b.当需要缩放要素数据(相差一个、两个或三个数量级(时,什么是好的经验法则?

由于规范化测试集而未对模型进行正确评分似乎没有意义: 您可能还会规范化将来用于预测的数据。

我在datascience stackexchange中发现了类似的问题,最高答案表明不仅测试数据必须规范化,而且您需要对训练数据应用与训练数据完全相同的缩放,因为模型也会考虑数据的规模:不同比例的测试/预测数据可能会导致特征的过度/低估。

最新更新