仅适用于数据子集的变量



我使用的是此链接中可用的公共数据集。

这是关于营销的,其中一个变量(pdays,数字(指的是在上一次活动中最后一次联系客户后经过的天数。

值为999的行表示以前没有联系过客户端。我担心在ML算法中使用它会导致错误的结果。

我正在考虑把它们归零。但我不知道在使用算法之前缩放数据集时该如何处理零(我应该考虑零吗?(。

有更好的解决方案吗?

我认为将该值设置为0是正确的,但这里的最佳实践可能是还定义一个新的二进制变量。您可以将此变量命名为"以前未联系过",对于值999的每个观测值,将值1分配给新变量,表示以前未联系客户,否则为0。

最新更新