我有两个熊猫数据框架,如下所示:
df1
<表类>
网站链接
tbody><<tr>retailer_site1 https://www.retailer_site1.com … … retailer_siteX https://www.retailer_siteX.com 表类>
">我看了一下,注意到一些网站的链接中包含了
(
和)
,这可能会使链接偏离
在比较链接时,似乎您只需要考虑字母数字/下划线字符,您可以使用
df2["link"].str.replace(r'W+','', regex=True).isin(
df1["link"].str.replace(r'W+','', regex=True))
.str.replace(r'W+','', regex=True)
部分将从链接中删除除字母、变音符号、数字和连接器标点符号(其中最常见的字符是下划线)以外的任何字符。