使用 sklearn 列传输器时解压缩错误

我正在尝试对数据帧进行热编码以进行某些测试。

我尝试使用sklearn的常规OneHotEncoder，但它似乎在NaN值方面存在一些问题(NaN我想编码的列中不存在的值(

从我搜索的内容来看，解决方案是使用列转换器，它只能将编码应用于某些列，如下所示

ct = ColumnTransformer([(OneHotEncoder(categories = categories_list),['col1','col2','col3'])])

其中categories_list是所有当前类别的列表。

问题是，当我尝试将此转换器应用于数据帧时，总是not enough values to unpack错误。

我像这样转变

ct.fit_transform(df_train_xgboost)

知道我该怎么办吗？

编辑：

一些示例数据

id | col1 | col2 | col3 | price | has_something
1    blue   car    new    23781       NaN
2    green  truck  used   24512       1
3    red    van    new    44521       0

更多代码

categories_list = ['blue','green','red','car','truck','van','new','used']
df_train_xgboost = df_train
df_train_xgboost = df_train_xgboost.drop(columns_I_dont_want, axis=1)
df_train_xgboost = df_train_xgboost.fillna(value = {'col1': 0, 'col2': 0, 'col3': 0})
ct = ColumnTransformer([(OneHotEncoder(categories = categories_list),['col1','col2','col3'])])
print(df_train_xgboost.shape)
ct.fit_transform(df_train_xgboost)

首先，没有必要使用`ColumnTransformer`。

为了使你的代码工作，你需要另一个输入参数，即转换器的"名称"。

完整示例：

df
col1   col2  col3
0   blue    car   new
1  green  truck  used
2    red    van   new
ct = ColumnTransformer([("onehot",OneHotEncoder(),[0,1,2])])
ct.fit_transform(df.values)
array([[1., 0., 0., 1., 0., 0., 1., 0.],
[0., 1., 0., 0., 1., 0., 0., 1.],
[0., 0., 1., 0., 0., 1., 1., 0.]])

现在请注意，仅使用OneHotEncoder即可获得相同的输出：

o = OneHotEncoder()
o.fit_transform(df).toarray()
array([[1., 0., 0., 1., 0., 0., 1., 0.],
[0., 1., 0., 0., 1., 0., 0., 1.],
[0., 0., 1., 0., 0., 1., 1., 0.]])

首先，没有必要使用`ColumnTransformer`。

相关内容

最新更新

热门标签：

使用 sklearn 列传输器时解压缩错误

首先，没有必要使用ColumnTransformer。

相关内容

最新更新

热门标签：

首先，没有必要使用`ColumnTransformer`。