我想拆分ASCII文本
1 'K^o, Suk'e'
被打印为python string
line = "1 'K\^o, Suk\'e'n"
进入
['1', 'K\^o, Suk\'e']
shlex.split(line)
不起作用,给出ValueError("No closing quotation")
。
我尝试将wordchars
添加到如下:
>>> lexer = shlex.shlex(line)
>>> lexer.wordchars += "\'"
>>> list(lexer)
['1', "'K\", '^', 'o', ',', "Suk\'e'"]
,但这不是我的意图。
没有报价,一切都按预期工作:
>>> line2= "1 'K\^o, Suk\e'n"
>>> shlex.split(line2)
['1', 'K\^o, Suk\e']
如何修复?
编辑:我来的最接近的是:
>>> lexer = shlex.shlex(line)
>>> lexer.wordchars += "\'"
>>> lexer.wordchars += " "
>>> lexer.wordchars += "\^"
>>> lexer.wordchars += ","
>>> list(lexer)
['1', "'K\^o,", "Suk\'e'"]
仍然不正确。
编辑:示例字符串有些误导。它也应该能够分裂,例如
>>> l1 = "C12 H2 'Hello friend'"
shlex
获得l1
没问题。
您可以使用POSIX模式,而escapedquotes
则可以使用'"
,而不是"
>>> line = "1 'K\^o, Suk\'e'n"
>>> lexer = shlex.shlex(line, posix=True)
>>> lexer.escapedquotes = "'""
>>> list(lexer)
['1', "K\^o, Suk'e"]
使用正则拆分可能更简单。这将在任何空格之前分成第一个令牌,然后是弦乐的其余部分。
re.match('(S+)s+(.*)', line).groups()