我有一个数据集,其中目标变量具有 15% 的空值,我想使用这些空行作为我的测试集,这可能吗?



我正在使用机器学习算法线性回归来预测房地产销售价格的值并将销售价格作为我的目标变量。但是销售价格中有 15% 的空值,所以我可以使用这 15% 作为我的测试集和 nun-null 值作为我的训练集吗?

是的,您可以这样做,但由于您没有该测试集的实际值,因此您将无法评估模型的性能。不会有任何基本事实可以评估。我建议在 80-10-10 拆分中使用非空数据进行训练验证测试和检查准确性。如果此准确性良好,则使用此模型预测 null 值,然后使用整个非 null 数据进行训练,然后再次使用该模型预测 null 数据。然后评估两者的预测,您将获得完美的评估和结果。

最新更新