if 语句 - R：删除"产量"列中具有 >3 NA 的县，并对具有 < 3 NA 的县使用 na.spline - if statement - R: Remove Counties with >3 NA's in Yield column , and use na.spline for counties with

我有一个数据框架"df"，有5列："年"、"州"、"县"、"fips"(州-县标识符(、"产量"。

许多县含有NA作为产量。我最初通过代码消除了具有任何NA值的县

Data <- df %>% group_by(fips) %>% filter(!any(is.na(Yield)))

我现在只需要消除那些含有3个以上NA的县。因此，NA>3

对于CCD_ 3＝<3、我使用spline功能：

v <- na.spline(df$Yield)
df$Yield <- v

到目前为止，我有以下内容来删除NA>3的所有郡，并使用样条曲线来填充剩余郡的NA：

if(length(df$Yield[is.na(df$Yield))<3){
na.spline(df$Yield)
}
}else{
df %>% group_by(fips) %>% filter(!any(is.na(Yield)))
}

这显然是行不通的。如有任何见解，我们将不胜感激。

使用dplyr

library(dplyr)
library(zoo) 
df %>% 
   group_by(fips) %>%
   filter(sum(is.na(Yield))<3) %>% 
   mutate(Yield=na.spline(Yield))

使用data.table

library(data.table)#v1.9.5+
setDT(df)[, .SD[sum(is.na(Yield))<=3] , fips][,Yield:= na.spline(Yield) ,fips][]

或使用base R

transform(subset(df, ave(is.na(Yield), fips, FUN=sum)<3), Yield=na.spline(Yield))

数据

set.seed(29)
df <- data.frame(fips= sample(LETTERS[1:4], 30, replace=TRUE), 
     Yield= as.numeric(sample(c(NA,0:3), 30, replace=TRUE)), 
         stringsAsFactors=FALSE)

if 语句 - R：删除"产量"列中具有 >3 NA 的县，并对具有 < 3 NA 的县使用 na.spline

数据

相关内容

最新更新

热门标签：