如何用熊猫获取数据框列(具有字符串数组)中每个元素的频率?



我在python中有一个熊猫数据框,如下所示:

df['column'] = [abc, mno]
[mno, pqr]
[abc, mno]
[mno, pqr]

我想获取以下每个项目的计数:

abc = 2, 
mno= 4 ,
pqr = 2

我可以对每一行进行迭代以进行计数,但这不是我正在寻找的解决方案。 如果有任何方法可以使用 iloc 或与此相关的任何内容,请向我建议。

我已经查看了具有类似问题的各种解决方案,但没有一个满足我的情况。

以下是我如何使用.explode()解决它,.value_counts()您可以进一步将其分配为列或随心所欲地处理输出: 在一行中:

print(df.explode('column')['column'].value_counts())

完整示例:

import pandas as pd
data_1 = {'index':[0,1,2,3],'column':[['abc','mno'],['mno','pqr'],['abc','mno'],['mno','pqr']]}
df = pd.DataFrame(data_1)
df = df.set_index('index')
print(df)
column
index            
0      [abc, mno]
1      [mno, pqr]
2      [abc, mno]
3      [mno, pqr]

在这里,我们执行.explode()以从列表中创建单个值,并执行value_counts((来计算唯一值的重复:

df_new = df.explode('column')
print(df_new['column'].value_counts())

输出:

mno    4
abc    2
pqr    2

使用collections.Counter

from collections import Counter
from itertools import chain
Counter(chain.from_iterable(df.column))
Out[196]: Counter({'abc': 2, 'mno': 4, 'pqr': 2})

%时间它

df1 = pd.concat([df]*10000, ignore_index=True)
In [227]: %timeit pd.Series(Counter(chain.from_iterable(df1.column)))
14.3 ms ± 279 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
In [228]: %timeit df1.column.explode().value_counts()
127 ms ± 3.06 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)

最新更新