Pandas:按分组对列的子集求和



我有一个包含多列的pandas数据帧。我想计算这些列的各个子集的总和,并为每组列指定一个名称。

是否可以使用分组或其他熊猫方法来实现这一点?

设置:

import numpy as np; np.random.seed(1)
import pandas as pd
df = pd.DataFrame(np.random.randint(0, 10, (3, 5)), columns=['A', 'B', 'C', 'D', 'E'])
columns_groups = {'First': ['A', 'B', 'C'],
'Second': ['D', 'E'],
'Some': ['A', 'C', 'D'],
'All': ['A', 'B', 'C', 'D', 'E']}

所需输出:(是否有更优雅的解决方案?(

out = {}
for name, group in columns_groups.items():
out[name] = df[group].sum(axis=1)
out = pd.DataFrame(out)
out
Out[22]: 
All  First  Second  Some
0   27     22       5    19
1   23      8      15    13
2   17     11       6     9

我的尝试:

df.groupby(columns_groups, axis=1).sum(axis=1)
Out[21]: 
Empty DataFrame
Columns: []
Index: [0, 1, 2]

只是一种不同而有趣的方式,使用reindexMultiIndex

df=df.reindex(columns=sum(columns_groups.values(),[]))
t=[(x,z ) for x , y in columns_groups.items() for z in y]
df.columns=pd.MultiIndex.from_tuples(t)
df.sum(level=0,axis=1)
First  Second  Some  All
0     22       8    18   30
1     17       9    16   26
2      6      15    14   21

你能接受吗:

pd.DataFrame({k: df[v].sum(axis=1) for k, v in columns_groups.items()})
All  First  Second  Some
0   27     22       5    19
1   23      8      15    13
2   17     11       6     9

和你们做的一样,只是在理解上。

实际上可以在一行panda操作中完成。更高效的内存和超简单的

file['sum']=file.sum(axis=1, skipna = True)

以下的输出

All  First  Second  sum
0   27   22     5       54.0
1   23   8      15      46.0
2   17   11     6       34.0

最新更新