我有一个数据集,其中名称(person_name(,日期和颜色(shirt_color(作为列。
每个人在特定的日子里都穿着一件某种颜色的衬衫。天数可以是任意的。
例如输入:
name day color
----------------
John 1 White
John 2 White
John 3 Blue
John 4 Blue
John 5 White
Tom 2 White
Tom 3 Blue
Tom 4 Blue
Tom 5 Black
Jerry 1 Black
Jerry 2 Black
Jerry 4 Black
Jerry 5 White
我需要找到每个人最常用的颜色。
例如结果:
name color
-------------
Jerry Black
John White
Tom Blue
我正在执行以下操作来获得结果,效果很好,但很慢:
most_frquent_list = [[name, group.color.mode()[0]]
for name, group in data.groupby('name')]
most_frquent_df = pd.DataFrame(most_frquent_list, columns=['name', 'color'])
现在假设我有一个包含 500 万个唯一名称的数据集。执行上述操作的最佳/最快方法是什么?
Numpy的numpy.add.at
和pandas.factorize
这是为了快速。 但是,我也试图将其组织起来以使其可读。
i, r = pd.factorize(df.name)
j, c = pd.factorize(df.color)
n, m = len(r), len(c)
b = np.zeros((n, m), dtype=np.int64)
np.add.at(b, (i, j), 1)
pd.Series(c[b.argmax(1)], r)
John White
Tom Blue
Jerry Black
dtype: object
groupby
、size
和idxmax
df.groupby(['name', 'color']).size().unstack().idxmax(1)
name
Jerry Black
John White
Tom Blue
dtype: object
name
Jerry Black
John White
Tom Blue
Name: color, dtype: object
Counter
¯_(ツ)_/¯
from collections import Counter
df.groupby('name').color.apply(lambda c: Counter(c).most_common(1)[0][0])
name
Jerry Black
John White
Tom Blue
Name: color, dtype: object
更新
它一定很难击败这一点(在样本daraframe上比任何提议的熊猫解决方案快~10倍,比提议的numpy解决方案快1.5倍(。要点是远离熊猫并使用itertools.groupby
在涉及非数字数据时做得更好。
from itertools import groupby
from collections import Counter
pd.Series({x: Counter(z[-1] for z in y).most_common(1)[0][0] for x,y
in groupby(sorted(df.values.tolist()),
key=lambda x: x[0])})
# Jerry Black
# John White
# Tom Blue
旧答案
这是另一种方法。它实际上比原来的慢,但我会把它留在这里:
data.groupby('name')['color']
.apply(pd.Series.value_counts)
.unstack().idxmax(axis=1)
# name
# Jerry Black
# John White
# Tom Blue
来自pd.Series.mode
的解决方案
df.groupby('name').color.apply(pd.Series.mode).reset_index(level=1,drop=True)
Out[281]:
name
Jerry Black
John White
Tom Blue
Name: color, dtype: object
用transform(max)
做两个分组怎么样?
df = df.groupby(["name", "color"], as_index=False, sort=False).count()
idx = df.groupby("name", sort=False).transform(max)["day"] == df["day"]
df = df[idx][["name", "color"]].reset_index(drop=True)
输出:
name color
0 John White
1 Tom Blue
2 Jerry Black
类似于@piRSquared的pd.factorize
和np.add.at
ans。
我们使用
i, r = pd.factorize(df.name)
j, c = pd.factorize(df.color)
n, m = len(r), len(c)
b = np.zeros((n, m), dtype=np.int64)
但是,与其这样做:
np.add.at(b, (i, j), 1)
max_columns_after_add_at = b.argmax(1)
我们使用抖动函数获取max_columns_after_add_at
,在同一循环中执行加法并找到最大值:
@nb.jit(nopython=True, cache=True)
def add_at(x, rows, cols, val):
max_vals = np.zeros((x.shape[0], ), np.int64)
max_inds = np.zeros((x.shape[0], ), np.int64)
for i in range(len(rows)):
r = rows[i]
c = cols[i]
x[r, c]+=1
if(x[r, c] > max_vals[r]):
max_vals[r] = x[r, c]
max_inds[r] = c
return max_inds
然后最后获取数据帧,
ans = pd.Series(c[max_columns_after_add_at], r)
所以,区别在于我们如何做argmax(axis=1) after np.add.at()
.
时序分析
import numpy as np
import numba as nb
m = 100000
n = 100000
rows = np.random.randint(low = 0, high = m, size=10000)
cols = np.random.randint(low = 0, high = n, size=10000)
所以这个:
%%time
x = np.zeros((m,n))
np.add.at(x, (rows, cols), 1)
maxs = x.argmax(1)
给:
CPU 时间:用户 12.4 秒,系统:38 秒,总计:50.4 秒 挂载时间:50.5 秒
而这个
%%time
x = np.zeros((m,n))
maxs2 = add_at(x, rows, cols, 1)
给
CPU 时间:用户 108 毫秒,系统:39.4 秒,总计:39.5 秒 挂机时间:38.4 秒
由于使用非常小的测试数据帧作为输入进行测量,其他答案中讨论的大多数测试结果都存在偏差。Pandas 有一些固定但通常可以忽略不计的设置时间,但在处理这个小数据集旁边看起来很重要。
在更大的数据集上,最快的方法是将pd.Series.mode()
与agg()
一起使用:
df.groupby('name')['color'].agg(pd.Series.mode)
试验台:
arr = np.array([
('John', 1, 'White'),
('John', 2, 'White'),
('John', 3, 'Blue'),
('John', 4, 'Blue'),
('John', 5, 'White'),
('Tom', 2, 'White'),
('Tom', 3, 'Blue'),
('Tom', 4, 'Blue'),
('Tom', 5, 'Black'),
('Jerry', 1, 'Black'),
('Jerry', 2, 'Black'),
('Jerry', 4, 'Black'),
('Jerry', 5, 'White')],
dtype=[('name', 'O'), ('day', 'i8'), ('color', 'O')])
from timeit import Timer
from itertools import groupby
from collections import Counter
df = pd.DataFrame.from_records(arr).sample(100_000, replace=True)
def factorize():
i, r = pd.factorize(df.name)
j, c = pd.factorize(df.color)
n, m = len(r), len(c)
b = np.zeros((n, m), dtype=np.int64)
np.add.at(b, (i, j), 1)
return pd.Series(c[b.argmax(1)], r)
t_factorize = Timer(lambda: factorize())
t_idxmax = Timer(lambda: df.groupby(['name', 'color']).size().unstack().idxmax(1))
t_aggmode = Timer(lambda: df.groupby('name')['color'].agg(pd.Series.mode))
t_applymode = Timer(lambda: df.groupby('name').color.apply(pd.Series.mode).reset_index(level=1,drop=True))
t_aggcounter = Timer(lambda: df.groupby('name')['color'].agg(lambda c: Counter(c).most_common(1)[0][0]))
t_applycounter = Timer(lambda: df.groupby('name').color.apply(lambda c: Counter(c).most_common(1)[0][0]))
t_itertools = Timer(lambda: pd.Series(
{x: Counter(z[-1] for z in y).most_common(1)[0][0] for x,y
in groupby(sorted(df.values.tolist()), key=lambda x: x[0])}))
n = 100
[print(r) for r in (
f"{t_factorize.timeit(number=n)=}",
f"{t_idxmax.timeit(number=n)=}",
f"{t_aggmode.timeit(number=n)=}",
f"{t_applymode.timeit(number=n)=}",
f"{t_applycounter.timeit(number=n)=}",
f"{t_aggcounter.timeit(number=n)=}",
f"{t_itertools.timeit(number=n)=}",
)]
t_factorize.timeit(number=n)=1.325189442
t_idxmax.timeit(number=n)=1.0613339019999999
t_aggmode.timeit(number=n)=1.0495010750000002
t_applymode.timeit(number=n)=1.2837302849999999
t_applycounter.timeit(number=n)=1.9432825890000007
t_aggcounter.timeit(number=n)=1.8283823839999993
t_itertools.timeit(number=n)=7.0855046380000015
对于那些想要将上表转换为数据框并尝试发布答案的人,您可以使用此代码段。将上面的表格复制粘贴到笔记本单元格中,如下所示,确保删除连字符
l = """name day color
John 1 White
John 2 White
John 3 Blue
John 4 Blue
John 5 White
Tom 2 White
Tom 3 Blue
Tom 4 Blue
Tom 5 Black
Jerry 1 Black
Jerry 2 Black
Jerry 4 Black
Jerry 5 White""".split('n')
现在我们需要将此列表转换为元组列表。
df = pd.DataFrame([tuple(i.split()) for i in l])
headers = df.iloc[0]
new_df = pd.DataFrame(df.values[1:], columns=headers)
立即使用new_df,您可以通过以下方式参考上面的答案@piRSquared