是否有一种稳健的方法可以使用一个变量,该变量包含与数据帧列名相对应的字符串列表,用于传递到各种dplyr
操作?
我刚刚进入dplyr
。
当我尝试对数据帧中的列的子集使用操作时,当我在逗号分隔的列表中显式地逐个命名列时,dplyr
做得很好。
此代码按预期工作
library(dplyr)
# Create dataframe
df <- data.frame(
a = c(1, 1, 1, 2, 2, 2)
, b = c(1, 2, 3, 1, 2, 3)
, c = c(1, 2, 1, 2, 1, 2)
)
# Identify rows where a * c is duplicated
df %>%
select(a, c) %>%
count(a, c) %>%
filter(n > 1)
但是,有时我已经有了一个列名列表,我希望将其传递到dplyr
步骤中,而不是显式地命名每一列。然而,我还没有找到一种简单/方便的方法来做到这一点,它足够强大,可以处理几个dplyr
操作:
此代码不起作用
# Attempting to do the same with a named list of relevant columns
relevantCols <- c("a", "c")
# Fails
df %>%
select(relevantCols)
# Trying to make new variable based on my relevantCols variable
colsForDplyr <- sapply(relevantCols, eval)
df %>%
# First step succeeds
select(colsForDplyr) %>%
# Fails at count step
count(colsForDplyr)
在上面的简单示例中,在每个dplyr
操作中重新键入"a,c"并没有什么大不了的。但是,如果我有一个更长的列列表,我宁愿将一个变量传递到dplyr
操作中,而不是一遍又一遍地重新键入列名列表。
关于如何做到这一点,有什么建议吗?
我将接受一个解决方案,该解决方案展示了如何从列名列表中创建一个变量,该列表可用于各种dplyr
操作,而不是反复键入每个列名
我们可以使用syms
和!!!
作为变量传递列名。
library(dplyr)
library(rlang)
relevantCols <- c("a", "c")
df %>%
count(!!!syms(relevantCols)) %>%
filter(n > 1)
# a c n
#1 1 1 2
#2 2 2 2
我们可以从dplyr
使用across
,而不必使用任何其他包
library(dplyr)
df %>%
count(across(all_of(relevantCols))) %>%
filter(n > 1)
# a c n
#1 1 1 2
#2 2 2 2
请参阅dplyr编程指南,创建一个函数并使用拥抱函数{{ }}
library(dplyr)
# Create dataframe
df <- data.frame(
a = c(1, 1, 1, 2, 2, 2)
, b = c(1, 2, 3, 1, 2, 3)
, c = c(1, 2, 1, 2, 1, 2)
)
dupcol <- function(df, one, two){
df %>%
select({{one}}, {{two}}) %>%
count({{one}}, {{two}}) %>%
filter(n > 1)
}
dupcol(df, a, c)