使用熊猫变换进行计数



假设我有以下数据帧:

df2 = pd.DataFrame({'A' : ['foo', 'bar', 'foo', 'bar',
'foo', 'bar', 'foo', 'foo'],
'B' : ['one', 'one', 'two', 'three',
'two', 'two', 'one', 'three'],
'C' : np.random.randn(8), 'D' : np.random.randn(8)})
df2.head()

如下所示:

A      B         C         D
0  foo    one  0.613774  0.783539
1  bar    one -0.937659 -0.913213
2  foo    two -1.568537  1.569597
3  bar  three -0.353449  1.108789
4  foo    two -1.769544  0.530466

我知道,如果我想创建另一列,即 A 列中每个值的记录计数,我可以执行以下操作:

df2['counts'] = df2.groupby('A')['B'].transform(np.size)

但是,假设我只想计算按 A 分组的 B 的独特元素? 如果我要将数据帧减少到 2 列(一列用于"foo",一列用于"bar"(,我知道该怎么做,但是如何使用 transform 来做到这一点?

使用GroupBy.transform.nunique

df2['counts'] = df2.groupby('A')['B'].transform('nunique')

最新更新