处理随机森林回归器中缺失分类特征值的指南

在使用随机森林回归器（或任何集成学习器）时，处理缺失分类特征值的通用指南是什么？我知道scikit learn有估算函数（比如均值…策略或接近度）来估算缺失值（数值）。但是，如何处理缺失的分类值：如工业（石油、计算机、汽车，无）、专业（学士、硕士、博士，无

欢迎提出任何建议。

随机森林的发明者Breiman和Cutler提出了两种可能的策略（参见http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm#missing1）：

随机林有两种替换缺失值的方法。第一种方式速度很快。如果第m个变量不是分类变量，则该方法计算类j中该变量所有值的中值，然后使用该值用于替换类中mth变量的所有缺失值j.如果第m个变量是分类变量，则替换变量最多j类中的频繁非缺失值。这些替换值为称为填充。
第二种替换缺失值的方法在计算上更价格昂贵，但性能比第一个更好，即使大量丢失的数据。它仅替换训练套装。它首先对缺少的值。然后它执行林运行并计算接近。

或者，将标签变量放在一边一分钟，可以使用分类器中的所有特性，在具有非空值的行上训练分类器。然后使用这个分类器来预测"测试集"中有问题的分类变量的值。有了更完整的数据集，您现在可以返回到预测原始标签变量值的任务。

相关内容

最新更新

热门标签：