使用r中的fread读取逗号分隔的csv文件,其中的字段包含逗号



我有一个用逗号分隔的csv文件。然而,也有包含逗号的字段,如公司名称";苹果公司";并且字段将被分为两列,这导致使用fread时出现以下错误。

"在5号线上提前停车。应为26个字段,但找到27个;

关于如何正确加载此文件,有什么建议吗?

示例行如下。似乎有一些字段带有逗号而没有引号。但字段中逗号后面有空格。

100,Microsoft,azure.com
300,IBM,ibm.com
500,Google,google.com
100,Amazon, Inc,amazon.com
400,"SAP, Inc",sap.com

1(使用在结尾的注释中创建的测试文件,并假设该文件的行中没有分号(如果有,请使用其他字符(,用分号替换第一个和最后一个逗号,然后将其作为分号分隔的文件读取。

L <- readLines("firms.csv")
read.table(text = sub(",(.*),", ";\1;", L), sep = ";")
##    V1          V2         V3
## 1 100   Microsoft  azure.com
## 2 300         IBM    ibm.com
## 3 500      Google google.com
## 4 100 Amazon, Inc amazon.com
## 5 400    SAP, Inc    sap.com

2(另一种方法是使用gsub将每个逗号后跟空格替换为分号后跟空格,然后使用charter将每个逗号替换为分号,将每个分号替换为逗号,然后读入作为分号分隔的文件。

L <- readLines("firms.csv")
read.table(text = chartr(",;", ";,", gsub(", ", "; ", L)), sep = ";")
##    V1          V2         V3
## 1 100   Microsoft  azure.com
## 2 300         IBM    ibm.com
## 3 500      Google google.com
## 4 100 Amazon, Inc amazon.com
## 5 400    SAP, Inc    sap.com

3(如果没有太多这样的行,另一种可能性是找到它们,然后在文本编辑器中在有问题的字段周围加引号。然后可以正常读入。

which(count.fields("firms.csv", sep = ",") != 3)
## [1] 4

备注

Lines <- '100,Microsoft,azure.com
300,IBM,ibm.com
500,Google,google.com
100,Amazon, Inc,amazon.com
400,"SAP, Inc",sap.com
'
cat(Lines, file = "firms.csv")

对我来说很好。你能提供一个可复制的例子吗?

library(data.table)
# Create example and write out
df_out <- data.frame("X" = c("A", "B", "C"),
"Y"= c("a,A", "b,B", "C"))
write.csv(df_out, file = "df.csv", row.names = F)
# Read in CSV with fread
df_in <- fread("./df.csv")
df_in
X   Y
1: A a,A
2: B b,B
3: C   C

最新更新