Python Pandas str.contains()中包含超链接



我有两个熊猫数据框架,如下所示:

df1

<表类> 网站链接 tbody><<tr>retailer_site1https://www.retailer_site1.com……retailer_siteXhttps://www.retailer_siteX.com

">我看了一下,注意到一些网站的链接中包含了(),这可能会使链接偏离

在比较链接时,似乎您只需要考虑字母数字/下划线字符,您可以使用

df2["link"].str.replace(r'W+','', regex=True).isin(
df1["link"].str.replace(r'W+','', regex=True))

.str.replace(r'W+','', regex=True)部分将从链接中删除除字母、变音符号、数字和连接器标点符号(其中最常见的字符是下划线)以外的任何字符。

相关内容

  • 没有找到相关文章

最新更新