单热编码训练和测试数据时的形状不匹配.Train_Data 在将get_dummies与管道一起使用时,具有比Test_



我正在尝试为我的数据创建一个get_dummies类,我想稍后在管道中使用它:

class Dummies(BaseEstimator, TransformerMixin):
     def transform(self, df):
           dummies=pd.get_dummies(df[self.cat],drop_first=True) ## getting dummy cols
           df=pd.concat([df,dummies],axis=1) ## concatenating our dummies
           df.drop(self.cat,axis=1,inplace=True) ## dropping our original cat_cols
     def fit(self, df):
           self.cat=[]    
           for i in df.columns.tolist():    
               if i[0]=='c': ## My data has categorical cols start with 'c'  
                  self.cat.append(i)  ## Storing all my categorical_columns for dummies
              else:
                continue

现在,当我在X_train上调用fit_transform然后转换X_test

z=Dummies()
X_train=z.fit_transform(X_train)
X_test=z.transform(X_test)

X_train和X_test形状的列是不同的:

X_train.shape
X_test.shape

输出:

(10983, 1797)(3661, 1529)

X_train中的假人比我X_test中的假人还多。显然,我的X_test的类别比X_train少。如何在类中编写逻辑,以便X_test中的类别广播为X_train的形状?我希望X_test拥有与我的X_train相同数量的虚拟变量。

您可以附加两个数据帧,然后执行 get_dummies()。

如果我们从两个小的示例数据帧开始:

train = pd.DataFrame({'job=carpenter': [0, 1, 0],
                   'job=plumber': [0, 0, 1],
                   'job=electrician': [1, 0, 0]})
    job=carpenter   job=plumber  job=electrician
0               0             0                1
1               1             0                0
2               0             1                0

test = pd.DataFrame({'job=carpenter': [0, 1, 0],
                   'job=plumber': [1, 1, 0]})
    job=carpenter   job=plumber
0               0             1
1               1             1
2               0             0

我们可以使用字典推导来获取训练集中缺少测试集的每一列,并为其分配一个值 0,然后该值将用于将特定列添加到测试集并用零填充它(因为测试集中没有一行包含任何这些缺失的类别):

train_cols = list(train.columns)
test_cols = list(test.columns)
cols_not_in_test = {c:0 for c in train_cols if c not in test_cols}
test = test.assign(**cols_not_in_test)

这为我们提供了以下测试数据帧:

test
   job=carpenter   job=plumber  job=electrician
0              0             1                0
1              1             1                0
2              0             0                0

你想在这里使用的(我认为)是scikit learn的OneHotEncoder

from sklearn.preprocessing import OneHotEncoder
encoder = OneHotEncode(categories = "auto")
X_train_encoded = encoder.fit_transform("X_train")
X_test_encoded = encoder.transform("X_test")

这将保留fit_transform语法,并确保X_test_encoded具有与X_train_encoded相同的形状。正如您提到的,它也可以在管道中使用,而不是 Dummies() .例:

pipe1=make_pipeline(OneHotEncoder(categories = "auto"), StandardScaler(), PCA(n_components=7), LogisticRegression())

相关内容

  • 没有找到相关文章

最新更新