这个分类问题有300000个元组和20个特征。我想使用 SVM 算法来解决这个问题。"age"功能介于 1 和 100 之间,但某些元组的此功能缺失且空白。我应该如何解决它。
这当然取决于缺失变量的分布,但我会尝试插补 - 尝试使用平均年龄值填写空白,看看你会得到什么样的结果。更进一步的是创建一个模型,预测给定其他输入变量的年龄,并将其用于插补。
您还可以添加一个变量,指示给定行具有一些插补值 - 在某些情况下,这会产生更好的训练结果,因为您可以为算法提供更多信息。
除了@dratewka已经提到的简单的均值插补之外,我建议尝试:
-
使用经典插补机制对特征进行插补,例如 K 最近邻插补。这样,对于缺少
age
的样本S
,使用最接近S
的 K 个样本来推导出合适的值来插补age
(使用所有其他特征测量 K 个邻居到 S 的距离)。 -
执行上一步后,尝试使用
age
和省略预测。如果您发现您的预测性能不受age
的影响,那么首先完全忽略此信息也可能是合理的。