我的数据框中的一列中包含一些带有超级链接的文本,我想用null替换所有超链接。
df_new["column_name"] = df_new["column_name"].replace(to_replace =r'https://example.com/xyz/pqr/*.html$', value = '', regex = True)
eg:超级链接将具有以下格式:
https://example.com/xyz/pqr/xxxxx.html
https://example.com/xyz/pqr/yyyyy.html
https://example.com/xyz/pqr/zzzzz.html
使用 .+
用于选择一个或多个重复( (的所有值, .
for Escape .
,因为特殊的REGEX字符(任何字符(:
df_new["column_name"]=df_new["column_name"].replace(r'https://example.com/xyz/pqr/.+.html$',
value = '', regex = True)
这应该做
import re
df_new["column_name"] = df_new.column_name.apply(lambda x: re.sub(r"https:.+html", value = '', x)