r语言 - 我们可以在 mlr 中使用预定义的 CV(重采样)列吗?



要在mlr R 包中进行交叉验证(重采样),通常需要调用makeResampleDesc函数来指定方法和折叠。

我的问题是:

  1. 是否可以使用预定义的列作为折叠列?或
  2. mlr中的makeResampleDesc确保创建的折叠是一致的(在同一原因种子下的不同学习者之间),并且可以导出以进行进一步的操作?

重采样描述独立于任何学习者;您可以将一个与多个学习者一起使用并获得相同的折叠。如果要将它们链接回原始数据,也可以从重采样结果中提取折叠编号。

您可以使用 blocking 参数将数据中的列用作折叠列来makeClassifTask。从帮助:

阻塞:["因子"]

      An optional factor of the same length as the number of
      observations. Observations with the same blocking level
      “belong together”. Specifically, they are either put all in
      the training or the test set during a resampling iteration.
      Default is ‘NULL’ which means no blocking.

我遇到了类似的问题。

尝试以下代码,我无法获得相同的学习者:

library(mlr)
set.seed(123)
K_Fold = 3
rdesc <- makeResampleDesc("CV", iters = K_Fold)
r <- resample("regr.rpart", bh.task, rdesc, show.info = FALSE, extract = getFeatureImportance, measures = medae)
KFoldIndex <- getResamplingIndices(r)
r2 <- resample("regr.glm", bh.task, rdesc, show.info = FALSE, measures = medae)
KFoldIndex2 <- getResamplingIndices(r2)

另一方面,如果使用makeResampleInstance,则可以将相同的索引应用于不同的独立学习器。可以在这里找到: https://mlr.mlr-org.com/articles/tutorial/resample.html:

rdesc = makeResampleDesc("CV", iters = K_Fold)
rin = makeResampleInstance(rdesc, size = nrow(iris))
r.lda = resample("classif.lda", iris.task, rin, show.info = FALSE)
r.rpart = resample("classif.rpart", iris.task, rin, show.info = FALSE)
getResamplingIndices(r.lda)
getResamplingIndices(r.rpart)

相关内容

  • 没有找到相关文章

最新更新