r-使用dplyr(符合案例删除)的数据中的完整情况



是否可以使用dplyr过滤data.frame?当然,具有所有变量列表的complete.cases当然可以。但这是a)详细说明有很多变量时,b)当变量名不知道时不可能(例如,在处理任何数据的函数中)。

library(dplyr)
df = data.frame(
    x1 = c(1,2,3,NA),
    x2 = c(1,2,NA,5)
)
df %.%
  filter(complete.cases(x1,x2))

尝试以下:

df %>% na.omit

或以下:

df %>% filter(complete.cases(.))

或以下:

library(tidyr)
df %>% drop_na

如果要根据一个变量的丢失过滤,请使用条件:

df %>% filter(!is.na(x1))

df %>% drop_na(x1)

其他答案表明,上述解决方案的na.omit的解决方案要慢得多,但必须与na.action属性中省略的行的行返回的行索引保持平衡。

str(df %>% na.omit)
## 'data.frame':   2 obs. of  2 variables:
##  $ x1: num  1 2
##  $ x2: num  1 2
##  - attr(*, "na.action")= 'omit' Named int  3 4
##    ..- attr(*, "names")= chr  "3" "4"

添加已更新以反映最新版本的dplyr和评论。

添加已更新以反映最新版本的TIDYR和评论。

这对我有用:

df %>%
  filter(complete.cases(df))    

或更一般的:

library(dplyr) # 0.4
df %>% filter(complete.cases(.))

这将具有一个优势,即在将数据传递给过滤器之前可以在链中修改。

另一个带有更多列的基准:

set.seed(123)
x <- sample(1e5,1e5*26, replace = TRUE)
x[sample(seq_along(x), 1e3)] <- NA
df <- as.data.frame(matrix(x, ncol = 26))
library(microbenchmark)
microbenchmark(
  na.omit = {df %>% na.omit},
  filter.anonymous = {df %>% (function(x) filter(x, complete.cases(x)))},
  rowSums = {df %>% filter(rowSums(is.na(.)) == 0L)},
  filter = {df %>% filter(complete.cases(.))},
  times = 20L,
  unit = "relative")
#Unit: relative
#             expr       min        lq    median         uq       max neval
 #         na.omit 12.252048 11.248707 11.327005 11.0623422 12.823233    20
 #filter.anonymous  1.149305  1.022891  1.013779  0.9948659  4.668691    20
 #         rowSums  2.281002  2.377807  2.420615  2.3467519  5.223077    20
 #          filter  1.000000  1.000000  1.000000  1.0000000  1.000000    20

这是Grothendieck答复的一些基准结果。Na.omit()花费20倍的时间与其他两个解决方案一样多。我认为,如果Dplyr可以作为过滤器的一部分,Dplyr对此有一个功能。

library('rbenchmark')
library('dplyr')
n = 5e6
n.na = 100000
df = data.frame(
    x1 = sample(1:10, n, replace=TRUE),
    x2 = sample(1:10, n, replace=TRUE)
)
df$x1[sample(1:n, n.na)] = NA
df$x2[sample(1:n, n.na)] = NA

benchmark(
    df %>% filter(complete.cases(x1,x2)),
    df %>% na.omit(),
    df %>% (function(x) filter(x, complete.cases(x)))()
    , replications=50)
#                                                  test replications elapsed relative
# 3 df %.% (function(x) filter(x, complete.cases(x)))()           50   5.422    1.000
# 1               df %.% filter(complete.cases(x1, x2))           50   6.262    1.155
# 2                                    df %.% na.omit()           50 109.618   20.217

这是一个简短的功能,可让您指定列(基本上是dplyr::select可以理解的所有内容),该列不应该具有任何Na值(在Pandas df.dropna()之后建模):

drop_na <- function(data, ...){
    if (missing(...)){
        f = complete.cases(data)
    } else {
        f <- complete.cases(select_(data, .dots = lazyeval::lazy_dots(...)))
    }
    filter(data, f)
}

[drop_na现在是Tidyr的一部分:以上可以用library("tidyr")替换]

示例:

library("dplyr")
df <- data.frame(a=c(1,2,3,4,NA), b=c(NA,1,2,3,4), ac=c(1,2,NA,3,4))
df %>% drop_na(a,b)
df %>% drop_na(starts_with("a"))
df %>% drop_na() # drops all rows with NAs

尝试此

df[complete.cases(df),] #output to console

甚至这个

df.complete <- df[complete.cases(df),] #assign to a new data.frame

上面的命令负责检查所有列的完整性(变量)在您的data.frame中。

仅仅是为了完整性,可以完全避免使用dplyr::filter,但仍然可以通过使用magrittr:extract[的别名)来构成链条:

>
library(magrittr)
df = data.frame(
  x1 = c(1,2,3,NA),
  x2 = c(1,2,NA,5))
df %>%
  extract(complete.cases(.), )

额外的奖励是速度,这是filterna.omit变体中最快的方法(使用@MihaTroštmicrobenchs测试)。

dplyr&gt; = 1.0.4

if_anyif_alldplyr的较新版本中可用,以在filter函数中应用across类别语法。如果您在数据范围中有其他变量不是您认为完整案例的一部分,这可能会很有用。例如,如果您只想在" x&quot"开头的列中的无误行,

library(dplyr)
df = data.frame(
  x1 = c(1,2,3,NA),
  x2 = c(1,2,NA,5),
  y = c(NA, "A", "B", "C")
)
df %>% 
  dplyr::filter(if_all(starts_with("x"), ~!is.na(.)))
  x1 x2    y
1  1  1 <NA>
2  2  2    A

有关这些功能的更多信息,请参见此链接。

相关内容

  • 没有找到相关文章

最新更新