Python-Sklearn的意思是使用另一列作为变量



我正在尝试使用SimpleImputter:中的mean选项替换所有"nan"值

imputer = SimpleImputer(missing_values=np.nan, strategy='mean', verbose=0)
imputer = imputer.fit(X[:, 1:3])
X[:, 1:3] = imputer.transform(X[:, 1:3])

(基本上得到了我第一列和第二列的平均值(然而,我需要平均值来考虑第0列(行业(。X为:

Col 0 = Industry
Col 1 = # of Employees
Col 2 = # Budget

有没有一种方法可以使用SimpleImputter选项来实现这一点?

  • 用行业平均值替换第1列的nan值
  • 将第2栏nan值替换为行业平均值

感谢

编辑:X的附加数据:

import pandas as pd
dataset = pd.read_csv('Group A.csv')
X = dataset.iloc[:, :-1].values

我认为在industry列上拟合估算器应该符合技巧:

imputer = imputer.fit(X[:, 0])

像以前一样进行变换时。

相关内容

最新更新