r语言 - 在.csv中读取时,用 NA 替换缺失值的最佳方法是什么?



我有一个.csv数据集,其中包含许多缺失值,我希望 R 在我读取表格时以相同的方式("正确"方式)识别它们。我一直在使用:

import = read.csv("/Users/dataset.csv", 
                  header =T, na.strings=c(""))

此脚本用某些内容填充所有空单元格,但它不一致。 当我用head(import)查看数据时,一些缺失的单元格填充了<NA>,一些缺失的单元格填充了NA。 我担心 R 在开始分析数据集时会以不同的方式处理这两种识别缺失值的方法,因此我希望在这些缺失值中统一读取导入。

最后,我的csv文件中的一些缺失值仅用句点表示。 我还希望在导入 R 时用正确的缺失值表示法表示这些句点。

<NA> vs NA 只是意味着你的一些列是字符,有些是数字,仅此而已。这绝对没有错。

正如 Ben 上面提到的,如果 csv 中的某些缺失值由单个句点表示,. ,那么您可以通过以下方式指定应被视为 NA s 的值向量:

na.strings=c("",".","NA")

作为read.csv的论据.

你也可以

使用更灵活的readr包,其等效的函数和参数是read_csv()na

library(readr)
read_csv("file.csv", na = c(".", ".."))

最新更新