何时使用 zscore 规范化数据(拆分之前或之后)

我正在参加一个 udemy 课程，该课程为仅规范化训练数据(从测试数据中分离后(提供了强有力的理由，因为该模型通常由新数据使用，具有原始集规模的特征。如果您缩放测试数据，那么您就没有正确对模型进行评分。

另一方面，我发现我的双类逻辑回归模型(使用 Azure 机器学习工作室创建(在 Z-Score 仅缩放训练数据后得到了糟糕的结果。

一个。这是否仅是 Azure 工具的问题？ b.当需要缩放要素数据(相差一个、两个或三个数量级(时，什么是好的经验法则？

由于规范化测试集而未对模型进行正确评分似乎没有意义：您可能还会规范化将来用于预测的数据。

我在datascience stackexchange中发现了类似的问题，最高答案表明不仅测试数据必须规范化，而且您需要对训练数据应用与训练数据完全相同的缩放，因为模型也会考虑数据的规模：不同比例的测试/预测数据可能会导致特征的过度/低估。

相关内容