在 R 中使用引号或不在 R 中使用引号分配 NA

我有一些数据，其中缺失值未编码为 NA，我想将它们更改为 NA，以便由插补缺失数据的 R 包自动处理。我使用的代码是这样的：

levels(data$catagorical_var)[levels(data$categorical_var) == "BLANK"] <- NA
data$numeric_var[data$numeric_var == -2] <- NA

我的问题是，对于分类变量，我应该在 NA 周围有引号吗？有关系吗？当我使用引号与不使用引号时，它给了我不同的结果，我不确定哪个是正确的。

不，您不应该使用引号。NA是 R 的缺失值。"NA"是一个包含字母"N"和"A"的字符串。

实际上有不同类型的NA(对于每种 R 的数据类型(。它们用下划线指定，例如NA_integer_或NA_character_。但几乎从不需要使用它们，R会自动使用正确的。您的确切问题实际上包含在?NA的详细信息部分(第一段(：

字符类型的NA不同于字符串"NA"。需要指定显式缺失字符串的程序员应该使用NA_character_(而不是"NA"(或使用is.na<-设置元素以NA。

您的代码..character vector.. <- NA属于">使用is.na<-设置元素以NA"。

相关内容