从效率方面来说,熊猫"isin"和numpy"in1d"之间存在巨大差异。经过一些研究,我注意到数据类型和作为参数传递给"in"方法的值对运行时有巨大的影响。无论如何,看起来numpy实现受此问题的影响要小得多。 这是怎么回事?
import timeit
import pandas as pd
import numpy as np
df = pd.DataFrame(np.random.randint(0,10,(10**6),dtype='int8'),columns=['A'])
vals = np.array([5,7],dtype='int64')
f = lambda: df['A'].isin(vals)
g = lambda: pd.np.in1d(df['A'],vals)
print 'pandas:', timeit.timeit(stmt='f()',setup='from __main__ import f',number=10)/10
print 'numpy :', timeit.timeit(stmt='g()',setup='from __main__ import g',number=10)/10
>>
**pandas: 0.0541711091995
numpy : 0.000645089149475**
Numpy和Pandas使用不同的算法进行isin
。在某些情况下,numpy的版本更快,而对于某些熊猫的版本。对于您的测试用例,numpy 似乎更快。
然而,Pandas的版本具有更好的渐近运行时间,将赢得更大的数据集。
假设数据系列中有n
个元素(示例中df
),查询中有m
个元素(示例中vals
)。
通常,Numpy的算法执行以下操作:
- 使用
np.unique(..)
查找系列中的所有独特元素。因此是通过排序完成的,即O(n*log(n))
,可能存在N<=n
独特的元素。 - 对于每个元素,使用二叉搜索来查找元素是否在系列中,即 总体
O(m*log(N))
。
这导致O(n*log(n) + m*log(N))
的整体运行时间。
对于只有少数元素的情况,有一些硬编码的优化vals
在这种情况下,numpy 真的很闪耀。
熊猫做了一些不同的事情:
- 填充哈希映射(包装
khash
-功能)以查找所有唯一元素,这需要O(n)
。 - 在
O(1)
的哈希图中查找每个查询,即 总体上O(m)
。
总的来说,运行时间O(n)+O(m)
,这比Numpy的要好得多。
然而,对于较小的输入,常量因素而不是渐近行为才是最重要的,对 Numpy 来说要好得多。还有其他考虑因素,例如内存消耗(熊猫的内存消耗更高),这可能会起作用。
但是,如果我们采用更大的查询集,情况就完全不同了:
import pandas as pd
import numpy as np
df = pd.DataFrame(np.random.randint(0,10,(10**6),dtype='int8'),columns=['A'])
vals = np.array([5,7],dtype='int64')
vals2 = np.random.randint(0,10,(10**6),dtype='int64')
现在:
%timeit df['A'].isin(vals) # 17.0 ms
%timeit df['A'].isin(vals2) # 16.8 ms
%timeit pd.np.in1d(df['A'],vals) # 1.36
%timeit pd.np.in1d(df['A'],vals2) # 82.9 ms
只要有更多的查询,Numpy 就会真正失去阵地。也可以看出,哈希映射的构建是 Pandas 的瓶颈,而不是查询的瓶颈。
最后,仅评估一种输入大小的性能没有多大意义(即使我只是这样做了!) - 应该针对一系列输入大小完成 - 有一些惊喜有待发现!
例如有趣的事实:如果你愿意接受
df = pd.DataFrame(np.random.randint(0,10,(10**6+1), dtype='int8'),columns=['A'])
即10^6+1
而不是10^6
,熊猫会回退到Numpy的算法(在我看来这并不聪明),并且对于小输入会变得更好,但对于大输入会变得更糟:
%timeit df['A'].isin(vals) # 6ms was 17.0 ms
%timeit df['A'].isin(vals2) # 100ms was 16.8 ms