基于每个组中最后一个值的内容(不包括最后一行)的列的总和和计数



我有一个数据帧如下(这是这个问题的更新(

id       val    type
aa         0    C
aa         1    T
aa         2    T
aa         3    T
aa         0    M
aa         1    M
aa         2    C
aa         3    M
bbb        0    C
bbb        1    T
bbb        2    T
bbb        3    T
bbb        0    M
bbb        1    M
bbb        2    C
bbb        3    T
cccccc     0    C
cccccc     1    T
cccccc     2    T
cccccc     3    T
cccccc     0    M
cccccc     1    M
cccccc     0    C
cccccc     1    C
dddddddd   3    G

我想做一个groupby"ID",然后sumcount"val"列中的行,但是应该求和的行只是包含"type"的行,与每个组中"type"列的最后一个值相同。此外,如果有多个行,则不应对最后一行的值求和或计数。如果最后一个值只有一行,那么最后一行应该相加和计数。

例如,组"aa"的最后一行具有"类型"M,因此仅对组中具有"类型"M的行求和和计数。但是,由于 M 有多个行,因此只应对最后一行以外的行求和和计数。因此,值 0 和 1 需要求和,计数为 2。

在另一种情况下,组 'dddddddd' 只有一行,因此总和应为 3,计数应为 1。

上述 df 的预期输出如下所示。输出中的"type"列不是强制性的,如果需要更多时间才能获得,可以省略它。我在这里展示它只是为了清楚地说明我想要实现的目标。

id        val  count   type
aa          1  2       M
bbb         6  3       T
cccccc      0  2       C
dddddddd    3  1       G

想法是按DataFrame.drop_duplicates过滤每组的最后一行,如果计数没有1则减去:

df1 = (df[df['type'].eq(df.groupby('id')['type'].transform('last'))]
.groupby('id').agg(val=('val', 'sum'), 
count=('val', 'size'), 
type=('type','last')))
print (df1)
val  count type
id                       
aa          4      3    M
bbb         9      4    T
cccccc      1      3    C
dddddddd    3      1    G

s = df.drop_duplicates('id', keep='last').set_index('id')['val']
m = df1['count'] != 1
df1['val'] -= np.where(m, s, 0)
df1['count'] -= np.where(m, 1, 0)
print (df1)
val  count type
id                       
aa          1      2    M
bbb         6      3    T
cccccc      0      2    C
dddddddd    3      1    G

另一种解决方案:

cols = ['val','count']
df2 = (df.drop_duplicates('id', keep='last')
.set_index('id')
.assign(count=1)[cols])
df1[cols] = df1[cols].sub(df2.where(df1['count'] != 1, 0))
print (df1)
val  count type
id                       
aa          1      2    M
bbb         6      3    T
cccccc      0      2    C
dddddddd    3      1    G

详情

print (df2)
val  count
id                  
aa          3      1
bbb         3      1
cccccc      1      1
dddddddd    3      1

找到最后一个值,然后从末尾的总和中减去它:

last_type = df.groupby("id").tail(1).rename(columns={'val':'last_val'})
res= df.merge(last_type, on=["id", "type"], how="inner").groupby(["id", "type"]).agg(
val = ('val', 'sum'),
count = ('val', 'count'),
last_val = ('last_val', 'first')).reset_index()
multiple = res['count'] > 1
res['val'] -= multiple*res['last_val']
res['count'] -= multiple
res.drop(columns='last_val')
Output:
id type  val  count
0        aa    M    1      2
1       bbb    T    6      3
2    cccccc    C    0      2
3  dddddddd    G    3      1

最新更新