在插入符号中设置种子平行随机森林以获得可重现的结果



我希望使用插入符号包并行运行随机森林,并且我希望为可重现的结果设置种子,就像使用插入符号的完全可重现并行模型中一样。但是,我不明白以下代码中的第 9 行取自插入符号帮助:为什么我们要采样 22(加上第 12、23 行中的最后一个模型)整数(计算参数 k 的 12 个值)?作为信息,我希望运行 5 倍 CV 来评估 RF 参数"mtry"的 584 个值。任何帮助都非常感谢。谢谢。

## Not run:
## Do 5 repeats of 10-Fold CV for the iris data. We will fit
## a KNN model that evaluates 12 values of k and set the seed
## at each iteration.
set.seed(123)
seeds <- vector(mode = "list", length = 51)
for(i in 1:50) seeds[[i]] <- sample.int(1000, 22) # Why 22?
## For the last model:
seeds[[51]] <- sample.int(1000, 1)
ctrl <- trainControl(method = "repeatedcv", 
                 repeats = 5,
                 seeds = seeds)
我会

说这是一个错误,应该是 12 而不是 22。

据我了解,对于 k 的每个值,您将运行模型 10*5 = 50 次。因此,对于 1:50 中的每个 i,您将需要 12 颗种子(每个 k 一颗)。获得最佳 k 后,您将运行最终模型。这一次,您只需要一粒种子(不再重复采样)。

最新更新