我有以下dataframe:
df=pd.DataFrame({'cluster':[1,1,1,2,8],'ssn':['123','','','567','123']})
我想将记录与匹配的SSN链接。在这种情况下,我想链接簇1和8。预期输出如下:
cluster ssn
0 1 123
1 1
2 1
3 2 567
4 1 123
我甚至在努力定义一种方法来解决此问题(这意味着我应该使用枢轴表,groupby(。因此,即使我对如何处理这种情况有一些指导或建议,我也会在此方面进行工作。
使用 pandas.DataFrame.groupby.transform
:
df['cluster'] = df.groupby('ssn').transform(min)
输出:
cluster ssn
0 1 123
1 1
2 1
3 2 567
4 1 123