我遇到了这个示例

library(mtcars)
set.seed(17)
cv.error.10 = rep(0,10)
for (i in 1:10){
    glm.fit = glm(mpg∼poly(horsepower ,i),data=Auto)
    cv.error.10[i] = cv.glm(Auto,glm.fit,K=10)$delta[1]
}
cv.error.10
[1] 24.21 19.19 19.31 19.34 18.88 19.02 18.90 19.71 18.95 19.50

我一直在尝试接收purrr和modelr。这似乎是一个很好的例子，因为它既包含循环又包含交叉验证，因此尝试复制。我如何将此代码转换为更整洁的经文？

更新

带有以下建议，这是代码在

的地方

data(mtcars)
cv_mtcars = mtcars %>%
  crossv_kfold(k = 5)
cv_models = cv_mtcars %>%
  mutate(model = map(train, ~lm(mpg ~ hp, data = .)),
         rmse_all_models = map2_dbl(model, test, ~rmse(.x, .y)))
print(cv_models)

我想做的是重复此操作，以增加hp的多项式，例如hp^2，hp^3等。我猜我猜是有purr可以做到这一点。

更新2

这是未卷入代码的示例

data(mtcars)
cv_mtcars = mtcars %>%
  crossv_kfold(k = 5)
cv_models = cv_mtcars %>%
  mutate(model1 = map(train, ~lm(mpg ~ hp, data = .)),
         model2 = map(train, ~lm(mpg ~I(hp^2), data = .)),
         model3 = map(train, ~lm(mpg ~I(hp^3), data = .)),         
         model4 = map(train, ~lm(mpg ~I(hp^4), data = .)),
         model5 = map(train, ~lm(mpg ~I(hp^5), data = .)),
         model6 = map(train, ~lm(mpg ~I(hp^6), data = .)),
         rmse_all_models1 = map2_dbl(model1, test, ~rmse(.x, .y)),
         rmse_all_models2 = map2_dbl(model2, test, ~rmse(.x, .y)),
         rmse_all_models3 = map2_dbl(model3, test, ~rmse(.x, .y)),
         rmse_all_models4 = map2_dbl(model4, test, ~rmse(.x, .y)),
         rmse_all_models5 = map2_dbl(model5, test, ~rmse(.x, .y)),
         rmse_all_models6 = map2_dbl(model6, test, ~rmse(.x, .y)))
print(cv_models)

我不知道mtcars库，但是如果您需要访问mtcars数据，则可以使用以下内容：

data(mtcars)
library(tidyverse)
library(modelr)

然后，您可以使用Cross_MC（）

创建重新采样列表

cv_mtcars = mtcars %>%
  crossv_mc(n = 50)
print(cv_mtcars)

现在，您可以在重建中训练模型。火车是持有用于培训的数据框的专栏。我将mutate（）用于称为模型的列（我将LM（）函数（或任何其他模型）映射到数据。

cv_models = cv_mtcars %>%
  mutate(model = map(train, ~lm(mpg ~ horsepower, data = .)))
print(cv_models)

您可以使用ModelR的RMSE（）函数添加均方根错误：

rmse_cv = cv_models %>%
  mutate(rmse_all_models = map2_dbl(model, test, ~rmse(.x, .y))) %>%
  pull(rmse_all_models)
print(rmse_cv)

您可以计算所需的RMSE（）的任何统计量。如果您不熟悉列表列的概念，则此代码可能会倒置。您可以在此处阅读有关列表列的更多信息：https：//campus.datacamp.com/courses/exploratory-data-analysis-in-r-case-in-r-case-study/tidy-modeling-with-broom?ex-broom?ex = 10＆amp; escapeed_fragment_ =#跳板

我在公共计算机上，所以我无法尝试代码，但是它应该工作。

更新

所以我稍微误解了一个问题，这里有一些建议：

powers = seq(1:6)
create_form = function(power){
  rhs = substitute(I(hp^pow), list(pow=power))
  rlang::new_formula(quote(mpg), rhs)
}

此函数创建公式，然后您可以将一系列功率映射到此功能：

list_forms = map(seq(1,6), create_form)

然后将结果列表映射到lm：

map(list_forms, lm, data=mtcars)

要将其集成到管道工作流中，您需要创建一个新功能：

train_model = function(cv_data, form){
  cv_data %>%
  mutate(model = map(train, ~lm(form, data = .)))
}

在一个模型上测试它：

test = train_model(cv_mtcars, list_forms[[1]])

现在在所有内容上运行：

all_models = map(list_forms, train_model, cv_data=cv_mtcars)

希望这会有所帮助。

r语言 - k折叠交叉验证和模型

更新

更新2

更新

相关内容

最新更新

热门标签：