使用Python Pandas在列中用NULL替换动态超链接



我的数据框中的一列中包含一些带有超级链接的文本,我想用null替换所有超链接。

df_new["column_name"] = df_new["column_name"].replace(to_replace =r'https://example.com/xyz/pqr/*.html$', value = '', regex = True)

eg:超级链接将具有以下格式:

https://example.com/xyz/pqr/xxxxx.html 
https://example.com/xyz/pqr/yyyyy.html
https://example.com/xyz/pqr/zzzzz.html

使用 .+用于选择一个或多个重复( (的所有值, . for Escape .,因为特殊的REGEX字符(任何字符(:

df_new["column_name"]=df_new["column_name"].replace(r'https://example.com/xyz/pqr/.+.html$',
                                                      value = '', regex = True)

这应该做

import re
df_new["column_name"] = df_new.column_name.apply(lambda x: re.sub(r"https:.+html",  value = '', x)

相关内容

  • 没有找到相关文章

最新更新