我是大数据验证和处理的新手。对datacompy知之甚少,我用它来比较两个数据集(熊猫(。但是我找不到任何可以进行数据验证的来源,即使用 python 对电子邮件、非电子邮件、null、货币和日期/时间格式进行列验证
例如,需要对以下示例数据进行验证:
Address
-------
AAA AAA AAA
BBBB B bbbb
CCC CCCCCCC
abc@dbv.com
dews@fggv.uk
ASAA asas dasd
我得到的数据集在"地址"列下包含电子邮件地址,需要验证电子邮件是否存在于"地址"列中。"Emil"列需要验证,反之亦然。
此外,我更喜欢在结果中返回无效行(类似地,datcompy compare.report,它输出整行不匹配的无效行(。
我已经尝试了带有 scala 的 Deequ,如果发现验证错误,验证成功声明。但是,很难找出具有无效数据的确切行。
如果有人可以为此目的指导我参考,课程或任何其他工具,语言,请不胜感激。首选python或Deequ/scala的解决方案。
> 熊猫给了我如下解决方案
data = pd.read_csv("data.csv", sep='t')
x = data[data['Email'].str.match(r'(^[a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+.[a-zA-Z0-9-.]+$)')]