我有一个论文项目的问题。为了进行情绪分析,我想删除所有的标签,但使用这段Python代码,我只删除了"&";。我还想删除与"#&";。感谢大家
df['text']=df['ext'].apply(lambda x:''.join(re.findall(r'\w+',x((
假设您希望标签后面的其余单词保持不变,请尝试以下操作:
import re
df['text']=df['text'].apply(lambda x:(re.sub("#([S]+)",'',x)))
它将删除#之后的任何单词,直到下一个空格。
您可以使用re.sub方法。类似的东西:
df["text"] = df["text"].apply (lambda x : re.sub (r"#.*s", "", x))
通过这种方式,您可以替换与模式"#"匹配的所有内容*\s";(hashtag后面跟着任意数量的字符,后面跟着一个空格(。您可能需要根据您的数据对正则表达式进行一些调整。
请在此处查看有关重新模块的文档:https://docs.python.org/3/library/re.html