r语言 - 使用函数 randomForest 时分类变量的类型应该是什么? - r - What should be the type of categorical variable when using the function randomForest? 小贝子编程网

这只是一个一般的理论问题，我在数据科学的大学模拟面试中被问到这个问题，我试图搜索这个答案，但无法在其他地方得到。希望有人能帮助我。我也对随机森林没有太多的手

就一般理论而言，随机森林可以处理数字和分类数据。函数randomForest(此处的文档(支持编码为因子的分类数据，因此这将是您的类型。

机器学习算法要求以数字形式对特征进行编码。您可以为要素的每个级别进行一个热编码(0 或 1s(以指示其存在，也可以标记编码，以便特征中的每个级别都有一个数值 (1,2,3(。通常使用独热编码，因为标签编码可能看起来对特征下达命令。独热编码的一个风险是，如果你有太多的特征，特征空间将扩展太多，从而导致高维特征集，如果没有足够的数据，这可能是一个挑战。因此，某些方法仅对功能最常见的级别进行功能编码。

资料来源：AceAI Interview Prep，Kaggle，A Introduction to Statistical Learning with

Applications in R

r语言 - 使用函数 randomForest 时分类变量的类型应该是什么?

相关内容

最新更新

热门标签：