我有一些数据,其中缺失值未编码为 NA,我想将它们更改为 NA,以便由插补缺失数据的 R 包自动处理。 我使用的代码是这样的:
levels(data$catagorical_var)[levels(data$categorical_var) == "BLANK"] <- NA
data$numeric_var[data$numeric_var == -2] <- NA
我的问题是,对于分类变量,我应该在 NA 周围有引号吗?有关系吗?当我使用引号与不使用引号时,它给了我不同的结果,我不确定哪个是正确的。
不,您不应该使用引号。NA
是 R 的缺失值。"NA"
是一个包含字母"N"和"A"的字符串。
实际上有不同类型的NA
(对于每种 R 的数据类型(。它们用下划线指定,例如NA_integer_
或NA_character_
。但几乎从不需要使用它们,R会自动使用正确的。您的确切问题实际上包含在?NA
的详细信息部分(第一段(:
字符类型的
NA
不同于字符串"NA"
。需要指定显式缺失字符串的程序员应该使用NA_character_
(而不是"NA"
(或使用is.na<-
设置元素以NA
。
您的代码..character vector.. <- NA
属于">使用is.na<-
设置元素以NA
"。