我正在尝试使用caret
软件包在我的数据集中应用lm
模型。
可重复的示例:
df <- data.frame(x = 1:10000, y = sample(1:1000, 10000, replace = TRUE), group = sample(c('A', 'B', 'C'), 10000, replace = TRUE, prob = c(.1, .5, .4)))
df_list <- split(df, df$group)
df_list <- lapply(df_list, function(x) select(x, -group))
创建数据分区正在抛出错误。我想使用caret
的createDataPartition
分配数据,然后应用train
函数。
train_test <- lapply(df_list, function(x) createDataPartition(x, p = .8, list = FALSE))
model_list <- lapply(train_test, function(z) train(x ~ ., z, method = 'lm', trControl = trainControl(method = 'cv', number = 10, verboseIter = TRUE), preProcess = c('nzv', 'center', 'scale'))
我认为这是围绕列表结构工作的简单问题,但是由于某种原因,我遇到问题。帮助您表示赞赏!
如果将 ?createDataPartition
键入控制台,则可以看到函数的正确用法。
也就是说,它的通用格式是以下内容:
createDataPartition(y, times = 1, p = 0.5, list = TRUE, groups = min(5,
length(y)))
其中 y
是"结果的向量"。它需要特别需要结果的原因是使培训和测试分裂在结果变量上保持平衡(我认为在您的情况下是y
)。
因此,而不是您拥有的以下代码:
train_test <- lapply(df_list, function(x) createDataPartition(x, p = .8, list = FALSE))
用以下内容替换它:
train_test <- lapply(df_list, function(x) {
return(createDataPartition(x$y, p = .8, list = FALSE))
})
要清楚,唯一的修改是添加$y
。
但是,这会导致您的最后一行的另一个错误(lapply()train()函数的行)。换句话说,要在DF_LIST中为每个DF进行训练集,您必须使用例如(df_list[[1]])[train_test[[1]],]
。随后,要获取相应的测试集,您必须使用例如(df_list[[1]])[-train_test[[1]],]
(请注意减去标志)。因此,您应该将最后一行重写以下内容:
model_list <- purrr::map2(df_list, train_test,
function(df, train_index) {
train(x ~ ., df[train_index,],
method = 'lm',
trControl = trainControl(method = 'cv',
number = 10,
verboseIter = TRUE),
preProcess = c('nzv', 'center', 'scale'))
})
请注意,Purrr的Map2函数类似于Sapply/Lapply(sapply/lapply在列表中调用一个函数)。唯一的区别是Map2在 2 列表上进行迭代(df_list和train_test)。
我希望这会有所帮助!
编辑:如果您想了解有关Caret软件包的更多信息,我建议以下链接:http://topepo.github.io/caret/data-splitting.html
CreateTataPartition接受向量,而不是dataFrame:
train_test <- lapply(df_list, function(x) createDataPartition(x$y, p = .8, list = FALSE))
我认为分区错误是由于createDataPartition
需要向量而不是数据框架引起的。我认为您可以做:
train_test <- lapply(df_list, function(x) {
x[createDataPartition(x$x, p = 0.8, list = FALSE),]
})
然后您的model_list <- ...
块对我有用。
据我所知,这不应该弄乱您的索引:
set.seed(123)
df_small <- data.frame(x = runif(10), y = letters[1:10])
df_small_part <- df_small[createDataPartition(df_small$x, list = FALSE),]
> join(df_small, df_small_part, type = "left", by = "y")
x y x
1 0.2875775 a 0.2875775
2 0.7883051 b NA
3 0.4089769 c NA
4 0.8830174 d 0.8830174
5 0.9404673 e 0.9404673
6 0.0455565 f 0.0455565
7 0.5281055 g NA
8 0.8924190 h NA
9 0.5514350 i 0.5514350
10 0.4566147 j 0.4566147
这是purrr
列表 - 列tidyverse
-Compliant Jenny Bryan启发的解决方案。请提供您的评论,您将如何使其更清洁。
library(dplyr)
library(tidyr)
library(purrr)
df <- data.frame(x = 1:10000, y = sample(1:1000, 10000, replace = TRUE),
group = sample(c('A', 'B', 'C'), 10000, replace = TRUE, prob = c(.1, .5, .4)))
df %>% group_by(group) %>% nest() %>%
mutate(dataPart = map(data, ~caret::createDataPartition(.x$x, p = .8, list = FALSE) )) %>%
mutate(model_list = map2(data, dataPart, ~caret::train(x ~ .,
data=.x[.y,],
method = 'lm',
trControl = caret::trainControl(method = 'cv', number = 10, verboseIter = TRUE),
preProcess = c('nzv', 'center', 'scale'))),
oof_prediction=pmap(list(data, dataPart, model_list), ~caret::predict.train(..3, newdata=..1[-..2, ])),
oof_error=pmap(list(data, dataPart, oof_prediction), ~caret::postResample(..3, ..1$x[-..2])),
oof_error=map(oof_error, ~as.data.frame(t(.x)))) %>%
unnest(oof_error)
data.frame中发生了什么
# A tibble: 3 x 7
group data dataPart model_list oof_prediction RMSE Rsquared
<fctr> <list> <list> <list> <list> <dbl> <dbl>
1 C <tibble [3,971 x 2]> <int [3,179 x 1]> <S3: train> <dbl [792]> 2902.691 2.386907e-05
2 B <tibble [5,041 x 2]> <int [4,033 x 1]> <S3: train> <dbl [1,008]> 2832.764 3.075320e-04
3 A <tibble [988 x 2]> <int [792 x 1]> <S3: train> <dbl [196]> 2861.664 3.438135e-03