r语言 - 使用函数 randomForest 时分类变量的类型应该是什么?



这只是一个一般的理论问题,我在数据科学的大学模拟面试中被问到这个问题,我试图搜索这个答案,但无法在其他地方得到。希望有人能帮助我。我也对随机森林没有太多的手

就一般理论而言,随机森林可以处理数字和分类数据。函数randomForest(此处的文档(支持编码为因子的分类数据,因此这将是您的类型。

机器学习算法要求以数字形式对特征进行编码。您可以为要素的每个级别进行一个热编码(0 或 1s(以指示其存在,也可以标记编码,以便特征中的每个级别都有一个数值 (1,2,3(。通常使用独热编码,因为标签编码可能看起来对特征下达命令。独热编码的一个风险是,如果你有太多的特征,特征空间将扩展太多,从而导致高维特征集,如果没有足够的数据,这可能是一个挑战。因此,某些方法仅对功能最常见的级别进行功能编码。

资料来源:AceAI Interview Prep,Kaggle,A Introduction to Statistical Learning with

Applications in R

最新更新