创建基于多数索引和数据框架(比较矩阵)的MultiIndex DataFrame



我想创建一个基于DataFrame DF的比较矩阵。

让我们假设以下数据框。

df= pd.DataFrame({'row'   : ['a','b','c','d'],
                   'col_A' : [1,2,3,4],
                   'col_B' : [1,2,3,4],
                   'col_C' : [1,2,3,4],
                   'col_D' : [1,2,3,4]});df
 df = df.set_index('row');df

dataFrame看起来像这样:

     col_A  col_B  col_C  col_D
row                            
a        1      1      1      1
b        2      2      2      2
c        3      3      3      3
d        4      4      4      4

我也有一个看起来像下面的映射,其中A和B与C和D是相同的实体。

mapping = pd.DataFrame({'row'   : ['a','b','c','d'],
                        'Mapping' : ['b','a','d','c']}).set_index('row');mapping

因此,我想构建一个具有DF索引的所有可能组合但不重复的新数据框架。我已经设法创建了与PANDAS MultiIndex功能的新比较数据框架的索引(如果您可以考虑以一种更加卑鄙的方式思考,请随时发布它(。

>

创建熊猫多索引(所有可能的组合,但不重复(

arrays = [['a', 'a', 'a', 'b', 'b', 'c'],
          ['b', 'c', 'd', 'c', 'd', 'd']]
index = pd.MultiIndex.from_tuples(tuples, names=['IndexA', 'IndexB'])

因此,问题1:如何构建一个比较矩阵,该矩阵从熊猫多索引中获得每对的绝对差异以及初始df的值。

比较dataframe

IndexA  IndexB  Col_A   Col_B   Col_C   Col_D   
   a       b      1       1      1        1      
   a       c      2       2      2        2      
   a       d      3       3      3        3      
   b       c      1       1      1        1      
   b       d      1       1      1        1      
   c       d      1       1      1        1      

问题2:如何添加一个新的列来查找索引对和映射表以定义哪个对是匹配的?

与匹配列的比较矩阵/dataFrame

    IndexA  IndexB   Col_A   Col_B  Col_C   Col_D   Match
       a       b      1       1      1        1      1
       a       c      2       2      2        2      0
       a       d      3       3      3        3      0
       b       c      1       1      1        1      0
       b       d      1       1      1        1      0
       c       d      1       1      1        1      1

这是通过使用reindex get_level_values

创建新DF的一种方法
pd.DataFrame(-df.reindex(index.get_level_values(0)).values+df.reindex(index.get_level_values(1)).values,index=index,columns=df.columns)
Out[215]: 
               col_A  col_B  col_C  col_D
IndexA IndexB                            
a      b           1      1      1      1
       c           2      2      2      2
       d           3      3      3      3
b      c           1      1      1      1
       d           2      2      2      2
c      d           1      1      1      1

更新

df=pd.DataFrame(-df.reindex(index.get_level_values(0)).values+df.reindex(index.get_level_values(1)).values,index=index,columns=df.columns)
s=mapping.assign(match=1).set_index('Mapping',append=True)
pd.concat([df,s.reindex(df.index)],1).fillna(0)
Out[249]: 
               col_A  col_B  col_C  col_D  match
IndexA IndexB                                   
a      b           1      1      1      1    1.0
       c           2      2      2      2    0.0
       d           3      3      3      3    0.0
b      c           1      1      1      1    0.0
       d           2      2      2      2    0.0
c      d           1      1      1      1    1.0

最新更新