这是我的series
,它已经标记化并删除了停止字:
0 [laptop, sits, 4, stars, similarly, priced, co...
1 [ordered, monitor, wanted, makeshift, area, po...
2 [monitor, great, deal, price, size, ., use, of...
3 [bought, height, adjustment, ., swivel, abilit...
4 [worked, month, died, ., 5, calls, hp, support...
...
30618 [great, deal]
30619 [pour, le, travail]
30620 [business, use]
30621 [good, size]
30622 [pour, mon, ordinateur.plus, grande, image.vra...
Name: text_body, Length: 30623, dtype: object
我想删除上面系列中的标点符号。我试过这种
filtered_text = re.sub(r'[^ws]','',str(series))
结果显示为字符串。
我有两个问题。
- 有没有办法将
filtered_text
字符串转换回列表或序列 - 有没有更好的方法可以从原始系列中删除标点符号
理想情况下,应该从这样的系列中删除punctuations
:
filtered_text = s.str.replace('[^ws]','')
其中s
是您的系列。
解释:
首先通过.str
将序列转换为字符串,然后应用replace
正则表达式。现在您不必担心再次将其转换回series
。