将数据集分配到列表中,并将数据集分解为LM模型R



我正在尝试使用caret软件包在我的数据集中应用lm模型。

可重复的示例:

df <- data.frame(x = 1:10000, y = sample(1:1000, 10000, replace = TRUE), group = sample(c('A', 'B', 'C'), 10000, replace = TRUE, prob = c(.1, .5, .4)))
df_list <- split(df, df$group)
df_list <- lapply(df_list, function(x) select(x, -group))

创建数据分区正在抛出错误。我想使用caretcreateDataPartition分配数据,然后应用train函数。

train_test <- lapply(df_list, function(x) createDataPartition(x, p = .8, list = FALSE))
model_list <- lapply(train_test, function(z) train(x ~ ., z, method = 'lm', trControl = trainControl(method = 'cv', number = 10, verboseIter = TRUE), preProcess = c('nzv', 'center', 'scale'))

我认为这是围绕列表结构工作的简单问题,但是由于某种原因,我遇到问题。帮助您表示赞赏!

如果将 ?createDataPartition键入控制台,则可以看到函数的正确用法。

也就是说,它的通用格式是以下内容:

createDataPartition(y, times = 1, p = 0.5, list = TRUE, groups = min(5,
  length(y)))

其中 y是"结果的向量"。它需要特别需要结果的原因是使培训和测试分裂在结果变量上保持平衡(我认为在您的情况下是y)。

因此,而不是您拥有的以下代码:

train_test <- lapply(df_list, function(x) createDataPartition(x, p = .8, list = FALSE))

用以下内容替换它:

train_test <- lapply(df_list, function(x) { 
  return(createDataPartition(x$y, p = .8, list = FALSE))
  })

要清楚,唯一的修改是添加$y

但是,这会导致您的最后一行的另一个错误(lapply()train()函数的行)。换句话说,要在DF_LIST中为每个DF进行训练集,您必须使用例如(df_list[[1]])[train_test[[1]],]。随后,要获取相应的测试集,您必须使用例如(df_list[[1]])[-train_test[[1]],](请注意减去标志)。因此,您应该将最后一行重写以下内容:

model_list <- purrr::map2(df_list, train_test, 
                          function(df, train_index)  {
                            train(x ~ ., df[train_index,], 
                                  method = 'lm', 
                                  trControl = trainControl(method = 'cv', 
                                                           number = 10, 
                                                           verboseIter = TRUE), 
                                  preProcess = c('nzv', 'center', 'scale')) 
                            })

请注意,Purrr的Map2函数类似于Sapply/Lapply(sapply/lapply在列表中调用一个函数)。唯一的区别是Map2在 2 列表上进行迭代(df_list和train_test)。

我希望这会有所帮助!

编辑:如果您想了解有关Caret软件包的更多信息,我建议以下链接:http://topepo.github.io/caret/data-splitting.html

CreateTataPartition接受向量,而不是dataFrame:

train_test <- lapply(df_list, function(x) createDataPartition(x$y, p = .8, list = FALSE))

我认为分区错误是由于createDataPartition需要向量而不是数据框架引起的。我认为您可以做:

train_test <- lapply(df_list, function(x) {
  x[createDataPartition(x$x, p = 0.8, list = FALSE),]
})

然后您的model_list <- ...块对我有用。

据我所知,这不应该弄乱您的索引:

set.seed(123)
df_small <- data.frame(x = runif(10), y = letters[1:10])
df_small_part <- df_small[createDataPartition(df_small$x, list = FALSE),]
> join(df_small, df_small_part, type = "left", by = "y")
           x y         x
1  0.2875775 a 0.2875775
2  0.7883051 b        NA
3  0.4089769 c        NA
4  0.8830174 d 0.8830174
5  0.9404673 e 0.9404673
6  0.0455565 f 0.0455565
7  0.5281055 g        NA
8  0.8924190 h        NA
9  0.5514350 i 0.5514350
10 0.4566147 j 0.4566147

这是purrr列表 - 列tidyverse-Compliant Jenny Bryan启发的解决方案。请提供您的评论,您将如何使其更清洁。

library(dplyr)
library(tidyr)
library(purrr)
df <- data.frame(x = 1:10000, y = sample(1:1000, 10000, replace = TRUE), 
                 group = sample(c('A', 'B', 'C'), 10000, replace = TRUE, prob = c(.1, .5, .4)))
df %>% group_by(group) %>% nest() %>% 
  mutate(dataPart = map(data, ~caret::createDataPartition(.x$x, p = .8, list = FALSE) )) %>% 
  mutate(model_list = map2(data, dataPart, ~caret::train(x ~ ., 
                                      data=.x[.y,], 
                                      method = 'lm', 
                                      trControl = caret::trainControl(method = 'cv', number = 10, verboseIter = TRUE), 
                                      preProcess = c('nzv', 'center', 'scale'))),
         oof_prediction=pmap(list(data, dataPart, model_list), ~caret::predict.train(..3, newdata=..1[-..2, ])),
         oof_error=pmap(list(data, dataPart, oof_prediction), ~caret::postResample(..3, ..1$x[-..2])),
         oof_error=map(oof_error, ~as.data.frame(t(.x)))) %>% 
  unnest(oof_error)

data.frame中发生了什么

# A tibble: 3 x 7
   group                 data          dataPart  model_list oof_prediction     RMSE     Rsquared
  <fctr>               <list>            <list>      <list>         <list>    <dbl>        <dbl>
1      C <tibble [3,971 x 2]> <int [3,179 x 1]> <S3: train>    <dbl [792]> 2902.691 2.386907e-05
2      B <tibble [5,041 x 2]> <int [4,033 x 1]> <S3: train>  <dbl [1,008]> 2832.764 3.075320e-04
3      A   <tibble [988 x 2]>   <int [792 x 1]> <S3: train>    <dbl [196]> 2861.664 3.438135e-03

最新更新