我有一个332列的数据框。我想估算值,以便能够使用scikit-learn的决策树分类器。我的问题是,从输入函数的结果数据的列只有330。
from sklearn.preprocessing import Imputer
imp = Imputer(missing_values='NaN', strategy='mean', axis=0)
cols = data.columns
new = imp.fit_transform(data)
print(data.shape,new.shape)
(34132, 332) (34132, 330)
根据sklearn.preprocessing.Imputer
的文档:
当axis=0时,在匹配时只包含缺失值的列在转换时被丢弃。
所以,这是删除所有缺失值的列