在熊猫中从字典到数组的映射不正确?



我打算合并两个数据框,芝加哥犯罪和Redfin房地产数据,但Redfin数据是由芝加哥的社区收集的,而犯罪数据是按社区区域收集的。为此,我在芝加哥找到了社区地图,并且我有点想出了如何将社区分配给社区区域。两个数据帧的结构有点不同,所以我对此进行了一些步骤操作。以下是有关我的尝试的详细信息:

示例数据片段

这是我可以在其中查看示例数据片段的公共要点。

这是我从在线资源中收集的邻域地图。

我的解决方案

这是我的第一个映射解决方案:

code_pairs_neighborhoods = [[p[0], p[1]] for p in [pair.strip().split('t') for pair in neighborhood_Map.strip().split('n')]]
neighborhood_name_dic = {k[0]:k[1] for k in code_pairs_neighborhoods} #neighborhood -> community area
chicago_crime['neighborhood'] = chicago_crime['community_name'].map(neighborhood_name_dic)
Redfin['neighborhood'] = Redfin['Region'].map(neighborhood_name_dic)
final_df= pd.merge(chicago_crime, chicago_crime, on='neighborhood')

但是这个解决方案没有找到正确的映射,neighborhood变成了NAN,这是错误的。

第二次映射尝试

在不使用邻域映射的情况下,我直观地提出了这个映射解决方案:

chicago_crime['community_name']=[[y.split() for y in x] for x in chicago_crime['community_name']]
Redfin['Region']= [[j.split() for j in i] for i in Redfin['Region']]
idx, datavalue = [], []
for i,dv in enumerate(chicago_crime['community_name']):
for d in dv:
if d in Redfin['Region'][i]:   
if i not in idx:
idx.append(i)
datavalue.append(d)
chicago_crime['merge_ref'] = datavalue
Redfin['merge_ref'] = datavalue
final_df= pd.merge(chicago_crime[['community_area','community_name','merge_ref']], Redfin, on='merge_ref')

但是这个解决方案给了我错误:ValueError: Length of values does not match length of indexAttributeError: 'list' object has no attribute 'split'

我怎样才能做到这一点?基于邻域映射,如何获得 Redfin 数据和芝加哥犯罪数据的正确映射?有什么想法可以使此映射正确并获得正确的合并数据帧吗?有什么想法吗?提前谢谢。

更新

我把我的所有解决方案(包括数据集)都放在这个 github 存储库上,所有解决方案和数据都放在 github 上

好的,这是我发现的:

  • 您可能想要删除neighborhood_Map的第一行中有一个 Unicode 字符:Cabrinixe2x80x93Green'->Cabrini Green
  • 切换neighborhood_name_dic中的键和值,因为您希望将现有的"罗杰斯公园"映射到附近的"东罗杰斯公园",如下所示:

    neighborhood_name_dic = {k[1]:k[0] for k in code_pairs_neighborhoods}

我们仍然不知道您的代码是如何读取 Redfin 数据的,但我认为您必须在合并之前删除Region列中的Chicago, IL -部分?


更新:所以我想我设法理解了你的代码(再次,请在发布之前尝试清理一下这些东西),我认为Redfin等于那里house_df。因此,而不是说:

house_df=house_df.set_index('Region',drop=False)

我建议创建一个邻里专栏:

house_df['neighborhood'] = house_df['Region'].map(lambda x: x.lstrip('Chicago, IL - '))

然后你可以合并:

crime_finalDF = pd.merge(chicago_crime, house_df, left_on='neighborhood', right_on='neighborhood')

要对其进行测试,请尝试:

mask=(crime_finalDF['neighborhood']==u'Sheridan Park')
print(crime_finalDF[['robbery','neighborhood', u'2018-06-01 00:00:00']][mask])

这会产生:

robbery   neighborhood  2018-06-01 00:00:00
0    140.0  Sheridan Park                239.0
1    122.0  Sheridan Park                239.0
2    102.0  Sheridan Park                239.0
3    113.0  Sheridan Park                239.0
4    139.0  Sheridan Park                239.0

所以两个数据集的成功连接(我认为)。

更新 2,关于merge()的成功。

这是我读入并清理您的xlsx文件的方式:

house_df = pd.read_excel("./real_eastate_data_main.xlsx",)
house_df.replace({'-': None})
house_df.columns=house_df.columns.astype(str)
house_df = house_df[house_df['Region'] != 'Chicago, IL']
house_df = house_df[house_df['Region'] != 'Chicago, IL metro area']
house_df['neighborhood'] = house_df['Region'].str.split(' - ')## note the surrounding spaces
house_df['neighborhood'] = house_df['neighborhood'].map(lambda x: list(x)[-1])
chicago_crime['neighborhood'] = chicago_crime['community_name'].map(neighborhood_name_dic)
## Lakeview and Humboldt park not defined in neighborhood_name_dic
# print( chicago_crime[['community_name','neighborhood']][pd.isnull(chicago_crime['neighborhood'])] )
chicago_crime = chicago_crime[~pd.isnull(chicago_crime['neighborhood'])] ## remove them

现在我们转向在两个 df 中找到所有独特的社区

cc=sorted(chicago_crime['neighborhood'].unique())
ho=sorted(house_df['neighborhood'].unique())
print(30*u"-"+u" chicago_crime: "+30*u"-")
print(len(cc),cc)
print(30*u"-"+u" house_df: "+30*u"-")
print(len(ho),ho)
print(60*"-")
# print('n'.join(cc))
set1 = set(cc)
set2 = set(ho)
missing = list(sorted(set1 - set2))
added = list(sorted(set2 - set1))
print('These {0} are missing in house_df: {1}'.format(len(missing),missing))
print(60*"-")
print('These {0} are only in house_df: {1}'.format(len(added),added))

这表明house_df中缺少29个条目(例如"东比尔森"),仅在house_df内发现132个条目(例如"奥尔巴尼公园"),即我们只能"内部连接"46个条目。

现在你必须决定如何继续,最好先阅读有关合并工作方式的文章(例如,理解那里发布的维恩图),然后你可以自己相应地改进你的代码!或者:之前手动清理数据,有时没有全自动解决方案!

最新更新