Imputer.fit with nan value有什么作用?



我正在使用scikit-learn库学习机器学习,当我看到Scikit-learn教程中的代码时,我很困惑

它具有以下代码:

import numpy as np
from sklearn.impute import SimpleImputer
imp = SimpleImputer(missing_values=np.nan, strategy='mean')
imp.fit([[1, 2], [np.nan, 3], [7, 6]])       
X = [[np.nan, 2], [6, np.nan], [7, 6]]
print(imp.transform(X)) 

据我了解,imputer 用于填充缺失值,并且它使用一些策略,如平均值、中位数或模式。但是我不明白这3行代码在做什么

imp.fit([[1, 2], [np.nan, 3], [7, 6]])       
X = [[np.nan, 2], [6, np.nan], [7, 6]]
print(imp.transform(X)) 

为什么它适合具有np.nan矩阵?这些配件如何影响imp.transform(X)

当你运行imp.fit时,它会计算每列中要替换的值(在本例中为mean(。

您可以通过以下方式访问我在每列中保留的内容:imp.statistics_

当你运行imp.transform时,它用相应的值完成NaN(imp.statistics_中的内容(

最新更新