Twitter数据分析

我有一个论文项目的问题。为了进行情绪分析，我想删除所有的标签，但使用这段Python代码，我只删除了"&"；。我还想删除与"#&"；。感谢大家

df['text']=df['ext'].apply(lambda x:''.join(re.findall(r'\w+'，x((

假设您希望标签后面的其余单词保持不变，请尝试以下操作：

import re
df['text']=df['text'].apply(lambda x:(re.sub("#([S]+)",'',x)))

它将删除#之后的任何单词，直到下一个空格。

您可以使用re.sub方法。类似的东西：

df["text"] = df["text"].apply (lambda x : re.sub (r"#.*s", "", x))

通过这种方式，您可以替换与模式"#"匹配的所有内容*\s"；(hashtag后面跟着任意数量的字符，后面跟着一个空格(。您可能需要根据您的数据对正则表达式进行一些调整。

请在此处查看有关重新模块的文档：https://docs.python.org/3/library/re.html

相关内容