我想创建一个基于DataFrame DF的比较矩阵。
让我们假设以下数据框。
df= pd.DataFrame({'row' : ['a','b','c','d'],
'col_A' : [1,2,3,4],
'col_B' : [1,2,3,4],
'col_C' : [1,2,3,4],
'col_D' : [1,2,3,4]});df
df = df.set_index('row');df
dataFrame看起来像这样:
col_A col_B col_C col_D
row
a 1 1 1 1
b 2 2 2 2
c 3 3 3 3
d 4 4 4 4
我也有一个看起来像下面的映射,其中A和B与C和D是相同的实体。
mapping = pd.DataFrame({'row' : ['a','b','c','d'],
'Mapping' : ['b','a','d','c']}).set_index('row');mapping
因此,我想构建一个具有DF索引的所有可能组合但不重复的新数据框架。我已经设法创建了与PANDAS MultiIndex功能的新比较数据框架的索引(如果您可以考虑以一种更加卑鄙的方式思考,请随时发布它(。
>创建熊猫多索引(所有可能的组合,但不重复(
arrays = [['a', 'a', 'a', 'b', 'b', 'c'],
['b', 'c', 'd', 'c', 'd', 'd']]
index = pd.MultiIndex.from_tuples(tuples, names=['IndexA', 'IndexB'])
因此,问题1:如何构建一个比较矩阵,该矩阵从熊猫多索引中获得每对的绝对差异以及初始df的值。
比较dataframe
IndexA IndexB Col_A Col_B Col_C Col_D
a b 1 1 1 1
a c 2 2 2 2
a d 3 3 3 3
b c 1 1 1 1
b d 1 1 1 1
c d 1 1 1 1
问题2:如何添加一个新的列来查找索引对和映射表以定义哪个对是匹配的?
与匹配列的比较矩阵/dataFrame
IndexA IndexB Col_A Col_B Col_C Col_D Match
a b 1 1 1 1 1
a c 2 2 2 2 0
a d 3 3 3 3 0
b c 1 1 1 1 0
b d 1 1 1 1 0
c d 1 1 1 1 1
这是通过使用reindex
get_level_values
pd.DataFrame(-df.reindex(index.get_level_values(0)).values+df.reindex(index.get_level_values(1)).values,index=index,columns=df.columns)
Out[215]:
col_A col_B col_C col_D
IndexA IndexB
a b 1 1 1 1
c 2 2 2 2
d 3 3 3 3
b c 1 1 1 1
d 2 2 2 2
c d 1 1 1 1
更新
df=pd.DataFrame(-df.reindex(index.get_level_values(0)).values+df.reindex(index.get_level_values(1)).values,index=index,columns=df.columns)
s=mapping.assign(match=1).set_index('Mapping',append=True)
pd.concat([df,s.reindex(df.index)],1).fillna(0)
Out[249]:
col_A col_B col_C col_D match
IndexA IndexB
a b 1 1 1 1 1.0
c 2 2 2 2 0.0
d 3 3 3 3 0.0
b c 1 1 1 1 0.0
d 2 2 2 2 0.0
c d 1 1 1 1 1.0