r-使用dplyr和do来构建和使用模型

我正在使用dplyr构建模型表

library(dplyr)
t1 <- iris %>%
  group_by(Species) %>%
  do(model = lm(formula = Petal.Width ~ Petal.Length, data = .))

我知道如何将这些模型输入到后续功能中，例如：

t2 <- t1 %>%
  do(summ = .$model %>% summary)

我希望在不丢失dplyr"格式"的情况下，将两个输出合并到一个表中

这两种解决方案都将列表扩展为文本，我不想要：

t3i <- merge(t1, t2)
t3ii  <- cbind(t1, t2)

这是我想要的结果的一个例子：

iris %>%
  group_by(Species) %>%
  do(
    model = lm(formula = Petal.Width ~ Petal.Length, data = .),
    summ = .$model %>% summary
     )

但我需要分别产生t1和t2，然后将它们结合起来——而不是一步到位。

inner_join是否有效？如果有效，如何在"t2"步骤中完成"物种"列？

下面将给出预期的结果。在创建t2的第二个管道链中，我添加了ungroup %>% group_by(Species)。这是必要的，以便在调用inner_join时使ID列可用。

library(dplyr)
t1 <- iris %>%
  group_by(Species) %>%
  do(model = lm(formula = Petal.Width ~ Petal.Length, data = .)) 
t2 <- t1 %>% ungroup %>% group_by(Species) %>%
  do(summ = .$model %>% summary) 
inner_join(t1, t2)
# Source: local data frame [3 x 3]
# Groups: <by row>
# 
#      Species   model                       summ
# 1     setosa <S3:lm> <S3:summaryDefault, table>
# 2 versicolor <S3:lm> <S3:summaryDefault, table>
# 3  virginica <S3:lm> <S3:summaryDefault, table>

尽管这是有效的，但这是一种丑陋的变通方法。一般的问题似乎是do()调用导致数据帧，其中原始分组信息被<by row>替换。

t1
# Source: local data frame [3 x 2]
# Groups: <by row>
#   
#      Species   model
# 1     setosa <S3:lm>
# 2 versicolor <S3:lm>
# 3  virginica <S3:lm>

我不知道这是不是一个bug。基于dplyr在使用mutate或summarize时的行为，我期望原始分组信息被保留或省略。因此，上面的数据帧应该显示Species而不是<by row>或者根本不显示分组信息。也许有人可以对此发表评论。

相关内容

最新更新

热门标签：