我们能标准化一个实际上是分类的数字列吗



我有房价-高级回归技术数据集。我需要对它进行Lasso和Ridge正则化。我将列车数据保存在名为house的变量中。键入以下代码:

house.info()

得到这个输出:在这里输入图像描述

这个数据集中有一些列是数值的(int64和float 64(,但它们实际上是分类的(包括序数和标称的(。

我想问我是否可以标准化这些分类变量,或者我应该首先将所有这些变量转换为类型";对象";使用house[col_name]=house[col_name].astype(str),然后对这些变量进行一次性编码,并对其余的数字列进行标准化?

当列是基数列时,可以应用一个热编码,通过这种方式,可以以二进制方式对每个类别的分类列进行矢量化。

import pandas as pd

raw_df= pd.get_dummies(data=raw_df, 
cardinal_features=['col1', 'col2', 'col3'], 
prefix=['feature1_', 'feature2_',  'feature3_'])

相关内容

  • 没有找到相关文章

最新更新