Python:将两个数据帧与所有索引组合在一起

我有一个包含x个变量和id_number 1:n(n很大(的数据帧。我想创建一个新的数据帧，根据数据帧中的id_number水平合并每对。原始数据如下：

id_number   var_x1   var_x2   
1           sth      stuff   
2           other    things  
3           more     info

我想为每一对可能的情侣都买这个：

id_numberA  var_x1A var_x2A id_numberB var_x1B var_x2B
1           sth     stuff   1          sth     stuff
1           sth     stuff   2          other   things
1           sth     stuff   3          more    info
2           other   things  3          more    info

对于大型数据集，最有效的方法是什么？

您可以使用创建合并索引

df['temp'] = 1

然后用将dataframe合并到自身

merged_df = df.merge(df, on='temp', suffixes=('A', 'B')).drop('temp', axis=1)

如果你不想要相同id_number的组合，最后做：

merged_df = merged_df[merged_df['id_numberA'] != merged_df['id_numberB']]

如果你不想要id_numberA和id_numberB的重复混合，那么最后做：

merged_df = merged_df[merged_df['id_numberA'] < merged_df['id_numberB']]

相关内容

最新更新

热门标签：