所以,我试图使用python代码从数据集。csv文件中删除特殊字符,但它从段落中删除了特殊字符以及单词间距。要避免删除空格,最好的解决方案是什么?
df['text'] = df['text'].str.replace('W', '', regex=True)
print(df)
W
匹配任何非字元,定义为
来自基本拉丁字母的字母数字字符,包括下划线。相当于[A-Za-z0-9_]
我们还有w
(小写w),它只匹配单词字符。
你想替换任何不是的字元或空格,所以创建一个只匹配字元和空格的字符类,并否定它:
df['text'] = df['text'].str.replace(r'[^ws]', '', regex=True)