如何避免在段落中删除空格,同时删除数据框架中的特殊字符?



所以,我试图使用python代码从数据集。csv文件中删除特殊字符,但它从段落中删除了特殊字符以及单词间距。要避免删除空格,最好的解决方案是什么?


df['text'] = df['text'].str.replace('W', '', regex=True)
print(df)

W匹配任何非字元,定义为

来自基本拉丁字母的字母数字字符,包括下划线。相当于[A-Za-z0-9_]

我们还有w(小写w),它只匹配单词字符。

你想替换任何不是字元或空格,所以创建一个只匹配字元和空格的字符类,并否定它:

df['text'] = df['text'].str.replace(r'[^ws]', '', regex=True)

最新更新