我正在进行基本的机器学习线性回归模型创建。我有分类特征,有点像一样的倾斜计数
AllPub 1459
NoSeWa 1
Name: Utilities, dtype: int64
可以看出,AllPub是贡献最大的一家。那么它在模型创建中有用吗?我要不要用它??
正如您所看到的,大多数值都是AllPub的,只有一个值是NoSeWa的。保留或移除都不会有太大区别。另一种思维方式可能是一个异类。由于只有一个计数,它可能输入错误。你可以用模式来估算这个值。