我的CSV文件有一些电子邮件地址.其中一些人的地址不完整.我如何使用Python使它们完全识别



我是与Python的数据科学的乞讨者。我正在研究一个我要执行以下任务的数据集: 使用Python Petl:

a。清洁clinics.csv中的数据。这涉及使用Python和Regex到标准化电子邮件地址,因此它们可作为HTML链接使用,

b。将合并和清洁的数据输出到具有名称的CSV文件 clinic_locations.csv

所以,我能够处理点的一部分( b (,即我很容易从XML文件中提取数据,并将其与CSV文件结合在一起。但是这个问题是

我无法清洁我的CSV文件的数据

这是我的CSV文件:

ID  Name    Suburb  State   Postcode    Email
1   Hurstville Clinic   Hurstville  NSW 1493    hurstville
2   Sydney Centre Clinic    Sydney  NSW 2000    sydney@myclinic.com.au
3   Auburn Clinic   Auburn  NSW 2144    auburn@myclinic.com.au
4   Riverwood Clinic    Riverwood   NSW 2210    riverwood@myclinic.com.au

您可以看到电子邮件列中的数据不完整,并且整个链接都无法使用。任何人都可以帮助我。

更新:我得到的输出是

   ID                     Name       Suburb State  Postcode  
0   1        Hurstville Clinic   Hurstville   NSW      1493
1   2     Sydney Centre Clinic       Sydney   NSW      2000
2   3            Auburn Clinic       Auburn   NSW      2144
3   4         Riverwood Clinic    Riverwood   NSW      2210
4   5        Fingal Bay Clinic   Fingal Bay   NSW      2315
5   6        Harrington Clinic   Harrington   NSW      2427
6   7       Back Forest Clinic  Back Forest   NSW      2535
7   8         Jindabyne Clinic    Jindabyne   NSW      2627
8   9          Benolong Clinic     Benolong   NSW      2830
9  10  Melbourne Centre Clinic    Melbourne   VIC      3000
                         Email
0   hurstville@myclinic.com.au
1       sydney@myclinic.com.au
2       auburn@myclinic.com.au
3    riverwood@myclinic.com.au
4   fingal bay@myclinic.com.au
5   harrington@myclinic.com.au
6  back forest@myclinic.com.au
7   jindabyne @myclinic.com.au
8     benolong@myclinic.com.au
9    melbourne@myclinic.com.au

我希望这将有助于假设您对所有电子邮件ID具有相似的域:

import pandas as pd
df=pd.read_csv("clinic_locations.csv")  #Provide complete path to your file
df['Email']=df['Email'].apply(lambda x: x if '@' in str(x) else str(x)+'@myclinic.com.au')
#To see data frame
print(df.head(10))

最新更新