如何在单个字段中读取带有多个带引号分隔符的csv



我希望能够拆分包含多次引用的分隔符的字符串。是否有一个参数可以用csv模块处理这种类型的字符串?或者有其他的处理方法吗?

text = '"a,b"-"c,d","a,b"-"c,d"'
next(csv.reader(StringIO(text), delimiter=",", quotechar='"', quoting=csv.QUOTE_NONE))

预期输出:['"a,b"-"c,d"', '"a,b"-"c,d"']

实际输出:['"a', 'b"-"c', 'd"', '"a', 'b"-"c', 'd"']

编辑:上面的例子被简化了,但显然过于简化了,因为一些评论为简化版本提供了解决方案,但没有为完整版本提供解决方案。以下是我想要处理的实际数据。

import csv
text = '"3-Amino-1,2,4-triazole"-text-0-"3-Amino-1,2,4-triazole"-CD-0,"3-Amino-1,2,4-triazole"-text-0-"3-Amino-1,2,4-triazole"-LS-0'
next(csv.reader(StringIO(text), delimiter=",", quotechar='"', quoting=csv.QUOTE_NONE))

预期输出

[
'"3-Amino-1,2,4-triazole"-text-0-"3-Amino-1,2,4-triazole"-CD-0',
'"3-Amino-1,2,4-triazole"-text-0-"3-Amino-1,2,4-triazole"-LS-0'
]

实际输出

[
'"3-Amino-1',
'2',
'4-triazole"-text-0-"3-Amino-1',
'2',
'4-triazole"-CD-0','"3-Amino-1',
'2', '4-triazole"-text-0-"3-Amino-1',
'2',
'4-triazole"-LS-0'
]

我只回答您问题的第一部分:使用内置的csv模块无法做到这一点。

查看CPython源代码,quotechar选项仅在字段的开头进行处理:

case START_FIELD:
/* expecting field */
...
else if (c == dialect->quotechar &&
dialect->quoting != QUOTE_NONE) {
/* start quoted field */
self->state = IN_QUOTED_FIELD;
}
...
break;

在字段内,没有这样的检查:

case IN_FIELD:
/* in unquoted field */
if (c == 'n' || c == 'r' || c == '') {
/* end of line - return [fields] */
if (parse_save_field(self) < 0)
return -1;
self->state = (c == '' ? START_RECORD : EAT_CRNL);
}
else if (c == dialect->escapechar) {
/* possible escaped character */
self->state = ESCAPED_CHAR;
}
else if (c == dialect->delimiter) {
/* save field - wait for new field */
if (parse_save_field(self) < 0)
return -1;
self->state = START_FIELD;
}
else {
/* normal character - save in field */
if (parse_add_char(self, module_state, c) < 0)
return -1;
}
break;

当解析器处于IN_QUOTED_FIELD状态时,存在对quotechar的检查;然而,当遇到引号时,它会返回到IN_FIELD状态,表示我们处于未引号字段中。所以这是可能的:

>>> import csv
>>> import io
>>> print(next(csv.reader(io.StringIO('"a,b"cd,e'))))
['a,bcd', 'e']

但是,一旦解析器到达初始引用部分的末尾,它就会将任何后续引用视为数据的一部分。我不知道这种行为是否符合任何(书面或非书面(CSV规范,或者这只是一个bug。

数据是非标准格式的,因此任何解决方案都需要在完整的数据集上进行测试。一种可能的解决方法是首先用;"替换,"字符,然后简单地在;上拆分它。这可以在不使用CSV或RE:的情况下完成

tests = [
'"a,b"-"c,d","a,b"-"c,d"',
'"3-Amino-1,2,4-triazole"-text-0-"3-Amino-1,2,4-triazole"-CD-0,"3-Amino-1,2,4-triazole"-text-0-"3-Amino-1,2,4-triazole"-LS-0',
]
for test in tests:
row = test.replace(',"' , ';"').split(';')
print(len(row), row)

给予:

2 ['"a,b"-"c,d"', '"a,b"-"c,d"']
2 ['"3-Amino-1,2,4-triazole"-text-0-"3-Amino-1,2,4-triazole"-CD-0', '"3-Amino-1,2,4-triazole"-text-0-"3-Amino-1,2,4-triazole"-LS-0'

如果结构始终相同,逗号夹在整数和'"'之间,则可以使用正则表达式:

import re
re.split('(?<=[0-9]),(?=")', text)

最新更新