如何检查数据帧是否为URL格式



我有一个数据帧,如:

df['website']

我想要一个条件,df['website']应该只包含URL形式的网站名称。如果数据帧有其他句子而不是URL,它应该显示一条警告消息。

可以使用验证器包。如果你想了解更多信息,请点击此链接。

在获得一个返回url是否有效的函数后,可以使用df.apply((将该函数应用于数据帧中的所有url。您可以返回true/false来判断它是否有效。此外,在函数中,如果您发现警告无效,则可以打印警告。

import validators
def isUrlValid(url):
return True if validators.url(url) else False
df['isURLValid'] = df['website'].apply(isUrlValid)

输出:

website     isURLValid
0   https://stackoverflow.com/  True
1   no  False

最后,如果您不想将结果作为列添加到数据帧中,您可以循环使用df['website'].tolist()中的所有值,并为每个值调用函数,并在函数中打印警告

我不知道警报的情况。

而是检查";url格式化";您可以编写一个函数来检查常见的url元素,如:;http";或";。com";。或者即使数据具有">

这真的取决于你的数据。。。

最新更新