删除熊猫系列中的标点符号



这是我的series,它已经标记化并删除了停止字:

0        [laptop, sits, 4, stars, similarly, priced, co...
1        [ordered, monitor, wanted, makeshift, area, po...
2        [monitor, great, deal, price, size, ., use, of...
3        [bought, height, adjustment, ., swivel, abilit...
4        [worked, month, died, ., 5, calls, hp, support...
...                        
30618                                        [great, deal]
30619                                  [pour, le, travail]
30620                                      [business, use]
30621                                         [good, size]
30622    [pour, mon, ordinateur.plus, grande, image.vra...
Name: text_body, Length: 30623, dtype: object

我想删除上面系列中的标点符号。我试过这种

filtered_text = re.sub(r'[^ws]','',str(series))

结果显示为字符串。

我有两个问题。

  1. 有没有办法将filtered_text字符串转换回列表或序列
  2. 有没有更好的方法可以从原始系列中删除标点符号

理想情况下,应该从这样的系列中删除punctuations

filtered_text = s.str.replace('[^ws]','')

其中s是您的系列。

解释:

首先通过.str将序列转换为字符串,然后应用replace正则表达式。现在您不必担心再次将其转换回series

相关内容

  • 没有找到相关文章

最新更新