我有一个从以前的模型中保存的sklearnStandardScaler
,并正在尝试将其应用于新数据
scaler = myOldStandardScaler
print("ORIG:", X)
print("CLASS:", X.__class__)
X = scaler.fit_transform(X)
print("SCALED:", X)
我有三个观察结果,每个观察结果有 2000 个特征。如果我单独运行每个观察,我会得到所有零的输出。
ORIG: [[ 3.19029839e-04 0.00000000e+00 1.90985485e-06 ..., 0.00000000e+00
0.00000000e+00 0.00000000e+00]]
CLASS: <class 'numpy.matrixlib.defmatrix.matrix'>
SCALED: [[ 0. 0. 0. ..., 0. 0. 0.]]
但是如果我将所有三个观察结果附加到一个数组中,我会得到我想要的结果
ORIG: [[ 0.00000000e+00 8.69737728e-08 7.53361877e-06 ..., 0.00000000e+00
0.00000000e+00 0.00000000e+00]
[ 9.49627142e-04 0.00000000e+00 0.00000000e+00 ..., 0.00000000e+00
0.00000000e+00 0.00000000e+00]
[ 3.19029839e-04 0.00000000e+00 1.90985485e-06 ..., 0.00000000e+00
0.00000000e+00 0.00000000e+00]]
CLASS: <class 'numpy.matrixlib.defmatrix.matrix'>
SCALED: [[-1.07174217 1.41421356 1.37153077 ..., 0. 0. 0. ]
[ 1.33494964 -0.70710678 -0.98439142 ..., 0. 0. 0. ]
[-0.26320747 -0.70710678 -0.38713935 ..., 0. 0. 0. ]]
我看到了这两个问题:
- Sklearn的MinMaxScaler只返回零
- 意外的标准缩放器fit_transform输出
两者都没有公认的答案。
我试过:
- 从 (1,n) 重塑为 (n,1)(这会产生不正确的结果)
- 将数组转换为
np.float32
和np.float64
(仍然全部为零) - 创建一个数组的数组(同样,全部为零)
- 创建一个
np.matrix
(同样,全为零)
我错过了什么?fit_transform
的输入是相同的类型,只是大小不同。
如何让标准缩放器处理单个观测值?
当你尝试将StandardScaler
对象应用于大小为 (1, n) 的数组fit_transform
方法时,你显然会得到所有零,因为对于每个数组数,你从中减去这个数字的平均值,它等于数字并除以这个数字的 std。如果要正确缩放数组,则应将其转换为大小为 (n, 1) 的数组。你可以这样做:
import numpy as np
X = np.array([1, -4, 5, 6, -8, 5]) # here should be your X in np.array format
X_transformed = scaler.fit_transform(X[:, np.newaxis])
在这种情况下,您可以通过其功能获得一个对象的标准缩放,这不是您要查找的。
如果要按 3 个对象的一个特征进行缩放,则应传递给大小为 (3, 1)fit_transform
方法数组,其中包含对应于每个对象的特定特征的值。
X = np.array([0.00000000e+00, 9.49627142e-04, 3.19029839e-04])
X_transformed = scaler.fit_transform(X[:, np.newaxis]) # you should get
# array([[-1.07174217], [1.33494964], [-0.26320747]]) you're looking for
如果要使用已拟合的 StandardScaler 对象,则不应使用fit_transform
方法,因为它会用新数据重新调整对象。StandardScaler
有transform
方法,适用于单个观察:
X = np.array([1, -4, 5, 6, -8, 5]) # here should be your X in np.array format
X_transformed = scaler.transform(X.reshape(1, -1))
我遇到了同样的问题。对于大小为 (1, n) 的数组问题,另一个(更简单)的解决方案是转置矩阵,它将是大小 (n, 1)。
X = np.array([0.00000000e+00, 9.49627142e-04, 3.19029839e-04])
X_transformed = scaler.transform(X.T)