根据其值频率选择分类特征



我正在进行基本的机器学习线性回归模型创建。我有分类特征,有点像一样的倾斜计数

AllPub    1459
NoSeWa       1
Name: Utilities, dtype: int64

可以看出,AllPub是贡献最大的一家。那么它在模型创建中有用吗?我要不要用它??

正如您所看到的,大多数值都是AllPub的,只有一个值是NoSeWa的。保留或移除都不会有太大区别。另一种思维方式可能是一个异类。由于只有一个计数,它可能输入错误。你可以用模式来估算这个值。

最新更新