我正在尝试使用SimpleImputter:中的mean选项替换所有"nan"值
imputer = SimpleImputer(missing_values=np.nan, strategy='mean', verbose=0)
imputer = imputer.fit(X[:, 1:3])
X[:, 1:3] = imputer.transform(X[:, 1:3])
(基本上得到了我第一列和第二列的平均值(然而,我需要平均值来考虑第0列(行业(。X为:
Col 0 = Industry
Col 1 = # of Employees
Col 2 = # Budget
有没有一种方法可以使用SimpleImputter选项来实现这一点?
- 用行业平均值替换第1列的nan值
- 将第2栏nan值替换为行业平均值
感谢
编辑:X的附加数据:
import pandas as pd
dataset = pd.read_csv('Group A.csv')
X = dataset.iloc[:, :-1].values
我认为在industry
列上拟合估算器应该符合技巧:
imputer = imputer.fit(X[:, 0])
像以前一样进行变换时。