训练具有内容列的数据帧。内容列包含该列表中包含不同单词的每一行的列表。
content
[sure, tune, …, watch, donald, trump, “,”, late, ’ , night]
[abc, xyz, “,”,late, ’, night]
删除正则表达式的代码
import re
train['content'] = train['content'].map(lambda x: re.sub(r'W+', '', x))
错误
TypeError: expected string or bytes-like object
预期产出
content
[sure, tune, watch, donald, trump, late, night]
[abc, xyz,late, night]
请注意,所有特殊字符如...
、“
、”
和’
都消失了,我们只剩下文字。
您正在尝试将正则表达式应用于 List 对象。
如果您的目标是在列表的每个项目上使用此正则表达式,则可以为列表中的每个项目应用 re.sub:
import re
def replace_func(item):
return re.sub(r'W+', '', item)
train['content'] = train['content'].map(lambda x: [replace_func(item) for item in x])
只需执行以下操作:
content=['sure', 'tune', '…', 'watch', 'donald', 'trump', '“,”', 'late', '’' , 'night']
content = list(map(lambda x: re.sub(r'W+', '', x),content))