在R中的自定义函数上使用sapply

(使用mtcars和iris实现再现性(

我创建了一个R函数get_col_info来查找数据摘要，如下所示：

如果列是numeric/integer/double，则得到最小值、最大值和平均

如果列是CCD_ 3，则获取唯一值的计数&唯一值

get_col_info <- function(data,col_name) {  
c_name <- c(col_name)
s <- data[,c_name]
type <- typeof(s)
if(type %in% c("numeric","double","integer")){
min <- min(s)
max <- max(s)
mean <- mean(s)
aa <- list(min=min, max=max,mean=mean)
return(aa)
}
if(type %in% c("character","factor")){
uni <- unique(s)
len <- length(uni)
aa <- list(n_values=len,unique_values=c(uni))
return(aa)}
}
get_col_info(mtcars, "mpg")
get_col_info(iris, "Petal.Width")
get_col_info(iris, "Species")

前两次运行完美，第三次出现错误，不确定为什么？

然而，现在的主要查询是，我想一次为所有列名运行这个函数，类似于sapply(iris,mean)，但我不确定如何做到这一点，因为该函数接收dataframe&列名。我试过这样做，但它给了我一个错误

sapply(iris,get_col_info(iris,names(iris)))
Error in match.fun(FUN) : 
'get_col_info(iris, names(iris))' is not a function, character or symbol

两者都适用&欢迎使用purrr解决方案。我也在找人告诉我如何才能更好地编写我的函数，我怀疑我创建的c_name不是捕获列名的理想方法。

您应该使用class来检查类型，而不是typeof:

get_col_info <- function(data,col_name) {    
s <- data[,col_name]
type <- class(s)
if(type %in% c("numeric","double","integer")){
min <- min(s)
max <- max(s)
mean <- mean(s)
aa <- list(min=min, max=max,mean=mean)
return(aa)
}
else if(type %in% c("character","factor")){
uni <- as.character(unique(s))
len <- length(uni)
aa <- list(n_values=len,unique_values=uni)
return(aa)
}
}

检查输出：

get_col_info(mtcars, "mpg")
#$min
#[1] 10.4
#$max
#[1] 33.9
#$mean
#[1] 20.09062
get_col_info(iris, "Species")
#$n_values
#[1] 3
#$unique_values
#[1] "setosa"     "versicolor" "virginica"

要对多个列运行此操作，可以使用：

sapply(names(iris), get_col_info, data = iris)

如果您对purrr解决方案感兴趣，也可以将sapply替换为map。

另一种方法是直接传递列值而不是名称。

get_col_info <- function(s) {    
if(is.numeric(s)) {
min <- min(s)
max <- max(s)
mean <- mean(s)
aa <- list(min=min, max=max,mean=mean)
return(aa)
}
else {
uni <- as.character(unique(s))
len <- length(uni)
aa <- list(n_values=len,unique_values=uni)
return(aa)
}
}
sapply(iris, get_col_info)

您可以使用summarise和across，并进行类型检查(如is.numeric(：

library(dplyr)
iris %>%
summarise(across(where(is.numeric), list(min=min, max=max, mean=mean)),
across(where(~is.factor(.) | is.character(.)), 
list(n_values = ~length(unique(.)), 
unique_values = ~as.character(unique(.))))) %>%
glimpse()

输出：

Rows: 3
Columns: 14
$ Sepal.Length_min      <dbl> 4.3, 4.3, 4.3
$ Sepal.Length_max      <dbl> 7.9, 7.9, 7.9
$ Sepal.Length_mean     <dbl> 5.843333, 5.843333, 5.843333
$ Sepal.Width_min       <dbl> 2, 2, 2
$ Sepal.Width_max       <dbl> 4.4, 4.4, 4.4
$ Sepal.Width_mean      <dbl> 3.057333, 3.057333, 3.057333
$ Petal.Length_min      <dbl> 1, 1, 1
$ Petal.Length_max      <dbl> 6.9, 6.9, 6.9
$ Petal.Length_mean     <dbl> 3.758, 3.758, 3.758
$ Petal.Width_min       <dbl> 0.1, 0.1, 0.1
$ Petal.Width_max       <dbl> 2.5, 2.5, 2.5
$ Petal.Width_mean      <dbl> 1.199333, 1.199333, 1.199333
$ Species_n_values      <int> 3, 3, 3
$ Species_unique_values <chr> "setosa", "versicolor", "virginica"

注意：我添加glimpse()是为了使输出更可读，没有必要。

相关内容

最新更新

热门标签：