我想在一个缺失量很大的数据集上训练一个随机森林模型。我知道"标准方法",即我们估算训练集中缺失的数据,使用相同的估算规则估算测试集,然后在估算的训练集上训练随机森林模型,并使用相同的模型在测试集上进行预测(可能使用多重估算(。
我想了解的是与我想使用的以下方法的区别:
根据缺失的模式对数据集进行子集设置。为每个缺失的模式训练随机森林模型。使用在缺失模式A上训练的随机森林模型来预测来自具有缺失模式A的测试集的数据。使用在模式B上训练的模型来预测具有模式B的测试集等的数据。
这个方法的名称是什么?这两种方法在统计学上的优点或缺点是什么?如果有人能介绍一些关于第二种方法的文献,或者将两者进行比较,我将不胜感激。
方法的区别在于预测能力。
若您将根据不同的缺失模式训练不同的模型,它将在较低数量的数据上进行训练(由于缺失模式分离(,并且将仅用于预测相应的测试集。使用这种方法,您很容易错过所有数据集的数据中的常见模式,否则(使用所有数据(您将检测到这些模式。
它仍然在很大程度上取决于你的具体情况和你的数据。检查由于特定缺失模式而训练的模型是否泛化良好的好测试是采用另一个缺失模式数据集,在其中进行简单快速的插补(平均值/模式/中值e.t.c(,并检查度量的差异。
在我看来,这种方法听起来有点极端,因为你自愿将训练数据集分割成比实际更小的部分。也许,它可以在大量数据上表现得更好,而训练数据集的减少不会对模型性能造成太大影响。
关于这些文章——我不知道有什么文章比较了这两种方法,但可以就各种"标准"插补方法提出一些好的建议:
- https://towardsdatascience.com/how-to-handle-missing-data-8646b18db0d4
- https://towardsdatascience.com/6-different-ways-to-compensate-for-missing-values-data-imputation-with-examples-6022d9ca0779