机器学习 - 具有'age'特征的二元分类数据集,其某些值缺失



这个分类问题有300000个元组和20个特征。我想使用 SVM 算法来解决这个问题。"age"功能介于 1 和 100 之间,但某些元组的此功能缺失且空白。我应该如何解决它。

这当然取决于缺失变量的分布,但我会尝试插补 - 尝试使用平均年龄值填写空白,看看你会得到什么样的结果。更进一步的是创建一个模型,预测给定其他输入变量的年龄,并将其用于插补。

您还可以添加一个变量,指示给定行具有一些插补值 - 在某些情况下,这会产生更好的训练结果,因为您可以为算法提供更多信息。

除了@dratewka已经提到的简单的均值插补之外,我建议尝试:

  • 使用经典插补机制对特征进行插补,例如 K 最近邻插补。这样,对于缺少age的样本S,使用最接近S的 K 个样本来推导出合适的值来插补age(使用所有其他特征测量 K 个邻居到 S 的距离)。

  • 执行上一步后,尝试使用age和省略预测。如果您发现您的预测性能不受age的影响,那么首先完全忽略此信息也可能是合理的。

最新更新