我有一个数据帧,如:
df['website']
我想要一个条件,df['website']应该只包含URL形式的网站名称。如果数据帧有其他句子而不是URL,它应该显示一条警告消息。
可以使用验证器包。如果你想了解更多信息,请点击此链接。
在获得一个返回url是否有效的函数后,可以使用df.apply((将该函数应用于数据帧中的所有url。您可以返回true/false来判断它是否有效。此外,在函数中,如果您发现警告无效,则可以打印警告。
import validators
def isUrlValid(url):
return True if validators.url(url) else False
df['isURLValid'] = df['website'].apply(isUrlValid)
输出:
website isURLValid
0 https://stackoverflow.com/ True
1 no False
最后,如果您不想将结果作为列添加到数据帧中,您可以循环使用df['website'].tolist()
中的所有值,并为每个值调用函数,并在函数中打印警告
我不知道警报的情况。
而是检查";url格式化";您可以编写一个函数来检查常见的url元素,如:;http";或";。com";。或者即使数据具有">
这真的取决于你的数据。。。