R-处理NAS给定数据类型的最佳方法



我正在尝试重新分类R中的nas。我希望它们是字符值或因子,如果它们是数字或整数,则它们是一个vlaue。我想到了以下if语句,但是由于某种原因,我要离开了。最好的方法是什么?

for(i in ncol(df_eng)) {
  if(class(df_eng[,i]) == "integer") {
    is.na(df_eng[,i]) <- 10219300
  }
  else if(class(df_eng[,i]) == "numeric") {
    is.na(df_eng[,i]) <- 10219300
  }
  else {
    is.na(df_eng[,i]) <- "ABCDEF"
  }
}
 Error in `[<-.data.frame`(`*tmp*`, , i, value = c("2017-05-26 18:20:20",  : 
  replacement has 791 rows, data has 790 

有两个问题。一个是is.na的分配错误。假设,我们有一个具有一些Na值的向量

v1 <- c(1, 2, NA, 3)

并按照OP的职位进行分配

is.na(v1) <- 5
v1
#[1]  1  2 NA  3 NA

这在位置5和类似的位置分配了Na元素

is.na(v1) <- 10
v1
#[1]  1  2 NA  3 NA NA NA NA NA NA

如果预期的行为是用某个值替换Na元素,则为5

v2 <- c(1, 2, NA, 3)
v2[is.na(v2)] <- 5
v2
#[1] 1 2 5 3

,其次,循环仅在最后一列中循环,即ncol(df_eng)


将相同的逻辑应用于OP的示例代码

for(i in seq_len(ncol(df_eng))) {
  if(class(df_eng[,i]) == "integer") {
      df_eng[,i][is.na(df_eng[,i])] <- 10219300
 }  else if(class(df_eng[,i]) == "numeric") {
      df_eng[,i][is.na(df_eng[,i])] <- 10219300
   }  else {
     df_eng[,i][is.na(df_eng[,i])] <- "ABCDEF"
   }
  }

另外,请注意,循环卡在ncol(df_eng)上。它应该是1:ncol(df_eng)或更正确的seq_len(ncol(df_eng)),如果是data.frame,则seq_along(df_eng)

相关内容

最新更新