使用 sklearn 使用数字变量和分类变量来拟合决策树



在sklearn中使用onehotencode对分类变量使用onehotencode时,如何使用稀疏矩阵生成与其他数值变量来拟合决策树? 如果我使用 OneHotEncoding 将分类变量转换为稀疏矩阵,那么如何将该稀疏矩阵与原始数据集中的数值变量组合在一起?

使用:

  • OneHotEncoder 带有参数categorical_features索引您的特征进行编码(自动组合您的所有特征)
    • 默认情况下,如果未更改sparse=True,则结果为稀疏(使用transform)
  • 或者:当仅在变量子集上使用OneHotEncoder时,将这些值堆叠到原始值上:
    • scipy.sparse.hstack((onehot, original))
    • 其中onehot的形状为(n_samples, ?(取决于您的特征),original的形状为(n_samples, ?

最新更新