要在mlr
R 包中进行交叉验证(重采样),通常需要调用makeResampleDesc
函数来指定方法和折叠。
我的问题是:
- 是否可以使用预定义的列作为折叠列?或
mlr
中的makeResampleDesc
确保创建的折叠是一致的(在同一原因种子下的不同学习者之间),并且可以导出以进行进一步的操作?
重采样描述独立于任何学习者;您可以将一个与多个学习者一起使用并获得相同的折叠。如果要将它们链接回原始数据,也可以从重采样结果中提取折叠编号。
您可以使用 blocking
参数将数据中的列用作折叠列来makeClassifTask
。从帮助:
阻塞:["因子"]
An optional factor of the same length as the number of observations. Observations with the same blocking level “belong together”. Specifically, they are either put all in the training or the test set during a resampling iteration. Default is ‘NULL’ which means no blocking.
我遇到了类似的问题。
尝试以下代码,我无法获得相同的学习者:
library(mlr)
set.seed(123)
K_Fold = 3
rdesc <- makeResampleDesc("CV", iters = K_Fold)
r <- resample("regr.rpart", bh.task, rdesc, show.info = FALSE, extract = getFeatureImportance, measures = medae)
KFoldIndex <- getResamplingIndices(r)
r2 <- resample("regr.glm", bh.task, rdesc, show.info = FALSE, measures = medae)
KFoldIndex2 <- getResamplingIndices(r2)
另一方面,如果使用makeResampleInstance,则可以将相同的索引应用于不同的独立学习器。可以在这里找到: https://mlr.mlr-org.com/articles/tutorial/resample.html:
rdesc = makeResampleDesc("CV", iters = K_Fold)
rin = makeResampleInstance(rdesc, size = nrow(iris))
r.lda = resample("classif.lda", iris.task, rin, show.info = FALSE)
r.rpart = resample("classif.rpart", iris.task, rin, show.info = FALSE)
getResamplingIndices(r.lda)
getResamplingIndices(r.rpart)