处理随机森林回归器中缺失分类特征值的指南



在使用随机森林回归器(或任何集成学习器)时,处理缺失分类特征值的通用指南是什么?我知道scikit learn有估算函数(比如均值…策略或接近度)来估算缺失值(数值)。但是,如何处理缺失的分类值:如工业(石油、计算机、汽车,)、专业(学士、硕士、博士,

欢迎提出任何建议。

随机森林的发明者Breiman和Cutler提出了两种可能的策略(参见http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm#missing1):

随机林有两种替换缺失值的方法。第一种方式速度很快。如果第m个变量不是分类变量,则该方法计算类j中该变量所有值的中值,然后使用该值用于替换类中mth变量的所有缺失值j.如果第m个变量是分类变量,则替换变量最多j类中的频繁非缺失值。这些替换值为称为填充。

第二种替换缺失值的方法在计算上更价格昂贵,但性能比第一个更好,即使大量丢失的数据。它仅替换训练套装。它首先对缺少的值。然后它执行林运行并计算接近。

或者,将标签变量放在一边一分钟,可以使用分类器中的所有特性,在具有非空值的行上训练分类器。然后使用这个分类器来预测"测试集"中有问题的分类变量的值。有了更完整的数据集,您现在可以返回到预测原始标签变量值的任务。

相关内容

  • 没有找到相关文章