Attribute在管道中使用ColumnTransformer时出错

这是我的第一个机器学习项目，也是我第一次使用ColumnTransformer。我的目标是执行两个数据预处理步骤，并分别使用ColumnTransformer。

在第一步中，我想用字符串"missing_value"来替换数据帧中缺失的值(对于某些功能)，并用最频繁的值来替换其余功能。因此，我使用ColumnTransformer将这两个操作结合起来，并将数据帧的相应列传递给它。

在第二步中，我想使用刚刚预处理的数据，并根据功能应用OrdinalEncoder或OneHotEncoder。为此，我再次使用ColumnTransformer。

然后，我将这两个步骤合并为一个管道。

我使用的是Kaggle Houses Price数据集，我有scikit学习版本0.20，这是我代码的简化版本：

cat_columns_fill_miss = ['PoolQC', 'Alley']
cat_columns_fill_freq = ['Street', 'MSZoning', 'LandContour']
cat_columns_ord = ['Street', 'Alley', 'PoolQC']
ord_mapping = [['Pave', 'Grvl'],                          # Street
['missing_value', 'Pave', 'Grvl'],         # Alley
['missing_value', 'Fa', 'TA', 'Gd', 'Ex']  # PoolQC
]
cat_columns_onehot = ['MSZoning', 'LandContour']

imputer_cat_pipeline = ColumnTransformer([
('imp_miss', SimpleImputer(strategy='constant'), cat_columns_fill_miss),  # fill_value='missing_value' by default
('imp_freq', SimpleImputer(strategy='most_frequent'), cat_columns_fill_freq),
])
encoder_cat_pipeline = ColumnTransformer([
('ordinal', OrdinalEncoder(categories=ord_mapping), cat_columns_ord),
('pass_ord', OneHotEncoder(), cat_columns_onehot),
])
cat_pipeline = Pipeline([
('imp_cat', imputer_cat_pipeline),
('cat_encoder', encoder_cat_pipeline),
])

不幸的是，当我将其应用于house_cat时，我的数据帧的子集仅包括分类特征

cat_pipeline.fit_transform(housing_cat)

我得到错误：

属性错误："numpy.ndarray"对象没有属性"columns"

在处理上述异常的过程中，发生了另一个异常：

ValueError：只有Panda DataFrames 才支持使用字符串指定列

我尝试过这种简化的管道，它工作正常：

new_cat_pipeline = Pipeline([
('imp_cat', imputer_cat_pipeline),
('onehot', OneHotEncoder()),
])

但是，如果我尝试：

enc_one = ColumnTransformer([
('onehot', OneHotEncoder(), cat_columns_onehot),
('pass_ord', 'passthrough', cat_columns_ord)
])
new_cat_pipeline = Pipeline([
('imp_cat', imputer_cat_pipeline),
('onehot_encoder', enc_one),
])

我开始犯同样的错误。

我怀疑这个错误与第二步中使用ColumnTransformer有关，但我实际上不明白它是从哪里来的。我在第二步中识别列的方式与第一步中相同，因此我仍然不清楚为什么只有在第二步骤中我才会得到属性错误。。。

ColumnTransformer返回numpy.array，因此它不能具有列属性(如您的错误所示)。

如果我可以建议一个不同的解决方案，将pandas用于您的两项任务，这将更容易。

步骤1-替换缺失的值

要用missing_value字符串替换列子集中缺失的值，请使用以下方法：

dataframe[["PoolQC", "Alley"]].fillna("missing_value", inplace=True)

对于其余部分(用每列的平均值输入)，这将完美工作：

dataframe[["Street", "MSZoning", "LandContour"]].fillna(
dataframe[["Street", "MSZoning", "LandContour"]].mean(), inplace=True
)

步骤2-一个热门编码和分类变量

pandas提供了get_dummies，它返回熊猫数据帧，与ColumnTransfomer不同，它的代码是：

encoded = pd.get_dummies(dataframe[['MSZoning', 'LandContour']], drop_first=True)
pd.dropna(['MSZoning', 'LandContour'], axis=columns, inplace=True)
dataframe = dataframe.join(encoded)

对于序数变量及其编码，我建议您查看这个SO答案(不幸的是，在这种情况下需要一些手动映射)。

如果你想使用变压器

使用values属性从数据帧中获取np.array，通过管道传递，然后从数组中重新创建列和索引，如下所示：

pd.DataFrame(data=your_array, index=np.arange(len(your_array)), columns=["A", "B"])

不过，有一点需要注意：；您将不知道自定义创建的一个热编码列的名称(管道不会为您做这件事)。

此外，您可以从sklearn的转换对象中获得列的名称(例如，使用categories_属性)，但我认为这会破坏管道(如果我错了，有人会纠正我)。

选项#2

使用make_pipeline函数

(有同样的错误，找到了这个答案，而不是找到了这个：介绍ColumnTransformer)

from sklearn.compose import make_column_transformer
from sklearn.pipeline import make_pipeline

cat_columns_fill_miss = ['PoolQC', 'Alley']
cat_columns_fill_freq = ['Street', 'MSZoning', 'LandContour']
cat_columns_ord = ['Street', 'Alley', 'PoolQC']
ord_mapping = [['Pave', 'Grvl'],                          # Street
['missing_value', 'Pave', 'Grvl'],         # Alley
['missing_value', 'Fa', 'TA', 'Gd', 'Ex']  # PoolQC
]
cat_columns_onehot = ['MSZoning', 'LandContour']


imputer_cat_pipeline = make_column_transformer(
(make_pipeline(SimpleImputer(strategy='constant'), cat_columns_fill_miss),
(make_pipeline(SimpleImputer(strategy='most_frequent'), cat_columns_fill_freq),
)
encoder_cat_pipeline = make_column_transformer(
(OrdinalEncoder(categories=ord_mapping), cat_columns_ord),
(OneHotEncoder(), cat_columns_onehot),
)
cat_pipeline = Pipeline([
('imp_cat', imputer_cat_pipeline),
('cat_encoder', encoder_cat_pipeline),
])

在我自己的管道中，我在列空间中没有重叠的预处理。所以我不确定，转换和"外部管道"是如何工作的。

然而，重要的部分是在SimpleImputter周围使用make_pipeline，以便在管道中正确使用它：

imputer_cat_pipeline = make_column_transformer(
(make_pipeline(SimpleImputer(strategy='constant'), cat_columns_fill_miss),
)

只是添加到这里的其他答案中。我不是Python或数据科学专家，但您可以将另一个管道传递给ColumnTransformer，以便执行需要向列添加多个转换器的操作。我来这里是为了寻找同一个问题的答案，并找到了这个解决方案。

通过管道完成这一切使您能够更容易地控制测试/训练数据以避免泄漏，并开辟了更多的网格搜索可能性。出于这些原因，我个人并不喜欢熊猫在另一个答案中的做法，但它仍然可以。

encoder_cat_pipeline = Pipeline([
('ordinal', OrdinalEncoder(categories=ord_mapping)),
('pass_ord', OneHotEncoder()),
])
imputer_cat_pipeline = ColumnTransformer([
('imp_miss', SimpleImputer(strategy='constant'), cat_columns_fill_miss),
('new_pipeline', encoder_cat_pipeline, cat_columns_fill_freq)
])
cat_pipeline = Pipeline([
('imp_cat', imputer_cat_pipeline),
])

每当我进行任何转换时，我都喜欢使用FunctionTransformersklearn提供的功能，而不是直接在panda中进行转换。原因是现在我的特征转换在新的输入数据上更具普遍性(例如，假设你赢了，你需要使用相同的代码来预测未来几年的数据)。这样你就不必重新运行你的代码，你可以保存你的预处理器并调用transform。我用的是类似的东西

FE_pipeline = {
'numeric_pipe': make_pipeline(
FunctionTransformer(lambda x: x.replace([np.inf, -np.inf], np.nan)),
MinMaxScaler(),
SimpleImputer(strategy='median', add_indicator=True),
),
'oh_pipe': make_pipeline(
FunctionTransformer(lambda x: x.astype(str)),
SimpleImputer(strategy='constant'),
OneHotEncoder(handle_unknown='ignore')
)
}

步骤1-替换缺失的值

步骤2-一个热门编码和分类变量

如果你想使用变压器

选项#2

相关内容

最新更新

热门标签：