如何快速规范化熊猫数据帧中的数据?

我有一个熊猫数据帧，如下所示。

import pandas as pd
df = pd.DataFrame({
'A':[1,2,3],
'B':[100,300,500],
'C':list('abc')
})
print(df)
A    B  C
0  1  100  a
1  2  300  b
2  3  500  c

我想规范化整个数据帧。由于第C列不是编号列，我所做的如下(即首先删除C，规范化数据并添加列(。

df_new = df.drop('concept', axis=1)
df_concept = df[['concept']]
from sklearn import preprocessing
x = df_new.values #returns a numpy array
min_max_scaler = preprocessing.MinMaxScaler()
x_scaled = min_max_scaler.fit_transform(x)
df_new = pd.DataFrame(x_scaled)
df_new['concept'] = df_concept

但是，我确信在熊猫中有更简单的方法可以做到这一点(给定我不需要规范化的列名，然后直接进行规范化(。

如果需要，我很乐意提供更多细节。

对数字列的DataFrame使用DataFrame.select_dtypes，然后按最小值和最大值除法进行规范化，然后仅赋值回规范化列：

df1 = df.select_dtypes(np.number)
df[df1.columns]=(df1-df1.min())/(df1.max()-df1.min())
print (df)
A    B  C
0  0.0  0.0  a
1  0.5  0.5  b
2  1.0  1.0  c

如果要在数据框上应用任何其他函数，可以使用df[columns] = df[columns].apply(func)。

相关内容

最新更新

热门标签：