我有房价-高级回归技术数据集。我需要对它进行Lasso和Ridge正则化。我将列车数据保存在名为house的变量中。键入以下代码:
house.info()
得到这个输出:在这里输入图像描述
这个数据集中有一些列是数值的(int64和float 64(,但它们实际上是分类的(包括序数和标称的(。
我想问我是否可以标准化这些分类变量,或者我应该首先将所有这些变量转换为类型";对象";使用house[col_name]=house[col_name].astype(str)
,然后对这些变量进行一次性编码,并对其余的数字列进行标准化?
当列是基数列时,可以应用一个热编码,通过这种方式,可以以二进制方式对每个类别的分类列进行矢量化。
import pandas as pd
raw_df= pd.get_dummies(data=raw_df,
cardinal_features=['col1', 'col2', 'col3'],
prefix=['feature1_', 'feature2_', 'feature3_'])