我正在尝试创建一个动态ML应用程序,该应用程序允许用户使用随机森林模型上传数据集以获得数据集中第一列的预测。
我在使用randomforest()
函数时遇到了问题,特别是当我试图将响应变量指定为数据集的第一列时。对于下面的示例,我使用虹膜数据集,并将响应变量物种移动到第一列中。
这是我的尝试:
model <- randomForest(names(DATA[1]) ~ ., data = DATA, ntree = 500, mtry = 3, importance = TRUE)
然而,这是行不通的。我得到的错误是:
错误:可变长度不同(针对"物种"(
只有当我手动指定响应变量时,应用程序和功能才能工作,如下所示:
model <- randomForest(Species ~ ., data = DATA, ntree = 500, mtry = 3, importance = TRUE)
我曾尝试使用paste()
函数来发挥一些魔力,但没有成功。
我应该如何编写代码才能使其正常工作?
看起来您想要从字符串构建公式。您可以使用eval
和parse
来执行此操作。像这样的东西应该起作用:
model <- randomForest(eval(parse(text = paste(names(DATA)[1], "~ ."))),
data = DATA, ntree = 500, mtry = 3, importance = TRUE)
使用原始虹膜数据集的示例:
model <- randomForest(eval(parse(text = paste(names(iris)[5], "~ ."))),
data = iris, ntree = 500, mtry = 3, importance = TRUE)
model
Call:
randomForest(formula = eval(parse(text = paste(names(iris)[5], "~ ."))), data = iris,
ntree = 500, mtry = 3, importance = TRUE)
Type of random forest: classification
Number of trees: 500
No. of variables tried at each split: 3
OOB estimate of error rate: 4%
Confusion matrix:
setosa versicolor virginica class.error
setosa 50 0 0 0.00
versicolor 0 47 3 0.06
virginica 0 3 47 0.06