小贝子编程

机器学习 - 具有'age'特征的二元分类数据集，其某些值缺失

本文关键字：数据集分类二元 age 具有特征机器学习 machine-learning svm libsvm missing-data feature-extraction
更新时间 : 2023-08-21
英文 : machine learning - A binary classification dataset with a 'age' feature whose some of values are missing

这个分类问题有300000个元组和20个特征。我想使用 SVM 算法来解决这个问题。"age"功能介于 1 和 100 之间，但某些元组的此功能缺失且空白。我应该如何解决它。

这当然取决于缺失变量的分布，但我会尝试插补 - 尝试使用平均年龄值填写空白，看看你会得到什么样的结果。更进一步的是创建一个模型，预测给定其他输入变量的年龄，并将其用于插补。

您还可以添加一个变量，指示给定行具有一些插补值 - 在某些情况下，这会产生更好的训练结果，因为您可以为算法提供更多信息。

除了@dratewka已经提到的简单的均值插补之外，我建议尝试：

使用经典插补机制对特征进行插补，例如 K 最近邻插补。这样，对于缺少age的样本S，使用最接近S的 K 个样本来推导出合适的值来插补age（使用所有其他特征测量 K 个邻居到 S 的距离）。
执行上一步后，尝试使用age和省略预测。如果您发现您的预测性能不受age的影响，那么首先完全忽略此信息也可能是合理的。

相关内容

最新更新