我在python中有一个熊猫数据框,如下所示:
df['column'] = [abc, mno]
[mno, pqr]
[abc, mno]
[mno, pqr]
我想获取以下每个项目的计数:
abc = 2,
mno= 4 ,
pqr = 2
我可以对每一行进行迭代以进行计数,但这不是我正在寻找的解决方案。 如果有任何方法可以使用 iloc 或与此相关的任何内容,请向我建议。
我已经查看了具有类似问题的各种解决方案,但没有一个满足我的情况。
以下是我如何使用.explode()
解决它,.value_counts()
您可以进一步将其分配为列或随心所欲地处理输出: 在一行中:
print(df.explode('column')['column'].value_counts())
完整示例:
import pandas as pd
data_1 = {'index':[0,1,2,3],'column':[['abc','mno'],['mno','pqr'],['abc','mno'],['mno','pqr']]}
df = pd.DataFrame(data_1)
df = df.set_index('index')
print(df)
column
index
0 [abc, mno]
1 [mno, pqr]
2 [abc, mno]
3 [mno, pqr]
在这里,我们执行.explode()
以从列表中创建单个值,并执行value_counts((来计算唯一值的重复:
df_new = df.explode('column')
print(df_new['column'].value_counts())
输出:
mno 4
abc 2
pqr 2
使用collections.Counter
from collections import Counter
from itertools import chain
Counter(chain.from_iterable(df.column))
Out[196]: Counter({'abc': 2, 'mno': 4, 'pqr': 2})
%时间它
df1 = pd.concat([df]*10000, ignore_index=True)
In [227]: %timeit pd.Series(Counter(chain.from_iterable(df1.column)))
14.3 ms ± 279 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
In [228]: %timeit df1.column.explode().value_counts()
127 ms ± 3.06 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)