我是与Python的数据科学的乞讨者。我正在研究一个我要执行以下任务的数据集: 使用Python Petl:
a。清洁clinics.csv
中的数据。这涉及使用Python和Regex到标准化电子邮件地址,因此它们可作为HTML链接使用,
b。将合并和清洁的数据输出到具有名称的CSV文件 clinic_locations.csv
。
所以,我能够处理点的一部分( b (,即我很容易从XML文件中提取数据,并将其与CSV文件结合在一起。但是这个问题是
我无法清洁我的CSV文件的数据
这是我的CSV文件:
ID Name Suburb State Postcode Email
1 Hurstville Clinic Hurstville NSW 1493 hurstville
2 Sydney Centre Clinic Sydney NSW 2000 sydney@myclinic.com.au
3 Auburn Clinic Auburn NSW 2144 auburn@myclinic.com.au
4 Riverwood Clinic Riverwood NSW 2210 riverwood@myclinic.com.au
您可以看到电子邮件列中的数据不完整,并且整个链接都无法使用。任何人都可以帮助我。
更新:我得到的输出是
ID Name Suburb State Postcode
0 1 Hurstville Clinic Hurstville NSW 1493
1 2 Sydney Centre Clinic Sydney NSW 2000
2 3 Auburn Clinic Auburn NSW 2144
3 4 Riverwood Clinic Riverwood NSW 2210
4 5 Fingal Bay Clinic Fingal Bay NSW 2315
5 6 Harrington Clinic Harrington NSW 2427
6 7 Back Forest Clinic Back Forest NSW 2535
7 8 Jindabyne Clinic Jindabyne NSW 2627
8 9 Benolong Clinic Benolong NSW 2830
9 10 Melbourne Centre Clinic Melbourne VIC 3000
Email
0 hurstville@myclinic.com.au
1 sydney@myclinic.com.au
2 auburn@myclinic.com.au
3 riverwood@myclinic.com.au
4 fingal bay@myclinic.com.au
5 harrington@myclinic.com.au
6 back forest@myclinic.com.au
7 jindabyne @myclinic.com.au
8 benolong@myclinic.com.au
9 melbourne@myclinic.com.au
我希望这将有助于假设您对所有电子邮件ID具有相似的域:
import pandas as pd
df=pd.read_csv("clinic_locations.csv") #Provide complete path to your file
df['Email']=df['Email'].apply(lambda x: x if '@' in str(x) else str(x)+'@myclinic.com.au')
#To see data frame
print(df.head(10))