现在,我知道已经回答了有关标点剥离的千左右问题。但是,我的观看的东西有些不同。
我需要一个剥离所有标点符号的代码,除了连字符和单个撇号。
到目前为止我发现的代码是:
import re
def textStrip():
text = input("Text? ")
return re.compile('w+').findall(text)
这对于剥离所有标点符号的效果很棒,现在我想知道是否有一种添加例外的方法?或者,如果某人在一起有更好的方式,那将有很大的帮助。谢谢!
样本:
"A tall-ish wall, with trim.I don't want to paint it;"
将返回:
["A", "tall-ish", "wall", "with", "trim", "I", "don't", "want", "to", "paint", "it"]
put -
, '
, w
[...]
内(含义一组字符):
>>> import re
>>> text = "A tall-ish wall, with trim.I don't want to paint it;"
>>> re.findall("[-'w]+", text)
['A', 'tall-ish', 'wall', 'with', 'trim', 'I', "don't", 'want', 'to', 'paint', 'it']