原始问题
我将大小为 n 的行 P 与大小为 n×m 的矩阵 O 的每一列相关联。我编写了以下代码:
import numpy as np
def ColumnWiseCorrcoef(O, P):
n = P.size
DO = O - (np.sum(O, 0) / np.double(n))
DP = P - (np.sum(P) / np.double(n))
return np.dot(DP, DO) / np.sqrt(np.sum(DO ** 2, 0) * np.sum(DP ** 2))
它比幼稚的方法更有效:
def ColumnWiseCorrcoefNaive(O, P):
return np.corrcoef(P,O.T)[0,1:O[0].size+1]
以下是我在英特尔内核上使用numpy-1.7.1-MKL获得的时间:
O = np.reshape(np.random.rand(100000), (1000,100))
P = np.random.rand(1000)
%timeit -n 1000 A = ColumnWiseCorrcoef(O, P)
1000 loops, best of 3: 787 us per loop
%timeit -n 1000 B = ColumnWiseCorrcoefNaive(O, P)
1000 loops, best of 3: 2.96 ms per loop
现在的问题是:你能为这个问题建议一个更快的代码版本吗?挤出额外的 20% 会很棒。
2017年5月更新
一段时间后,我回到了这个问题,重新运行并扩展了任务和测试。
使用 einsum,我将代码扩展到 P 不是行而是矩阵的情况。因此,任务是将 O 的所有列与 P 的所有列相关联。
出于对如何用科学计算常用的不同语言解决同一问题的好奇,我在 MATLAB、Julia 和 R 中实现了它(在其他人的帮助下),MATLAB 和 Julia 是最快的,他们有一个专门的例程来计算列相关。R 也有专用的例程,但速度最慢。
在当前版本的numpy(来自Anaconda的1.12.1)中,einsum仍然胜过我使用的专用函数。
所有脚本和时间安排都可以在 https://github.com/ikizhvatov/efficient-columnwise-correlation 获得。
我们可以对此介绍np.einsum
; 但是,您的 milage 可能会根据您的编译以及是否使用 SSE2 而有所不同。替换求和操作的额外einsum
调用可能看起来无关紧要,但是numpy ufuncs直到numpy 1.8才使用SSE2,而einsum
则使用,我们可以避免一些if
语句。
使用英特尔 mkl blas 在 opteron 内核上运行它,我得到一个奇怪的结果,因为我希望dot
调用花费大部分时间。
def newColumnWiseCorrcoef(O, P):
n = P.size
DO = O - (np.einsum('ij->j',O) / np.double(n))
P -= (np.einsum('i->',P) / np.double(n))
tmp = np.einsum('ij,ij->j',DO,DO)
tmp *= np.einsum('i,i->',P,P) #Dot or vdot doesnt really change much.
return np.dot(P, DO) / np.sqrt(tmp)
O = np.reshape(np.random.rand(100000), (1000,100))
P = np.random.rand(1000)
old = ColumnWiseCorrcoef(O,P)
new = newColumnWiseCorrcoef(O,P)
np.allclose(old,new)
True
%timeit ColumnWiseCorrcoef(O,P)
100 loops, best of 3: 1.52ms per loop
%timeit newColumnWiseCorrcoef(O,P)
1000 loops, best of 3: 518us per loop
再次使用带有英特尔 mkl 的英特尔系统运行它,我得到了更合理/预期的东西:
%timeit ColumnWiseCorrcoef(O,P)
1000 loops, best of 3: 524 µs per loop
%timeit newColumnWiseCorrcoef(O,P)
1000 loops, best of 3: 354 µs per loop
再次在英特尔机器上,有更大的东西:
O = np.random.rand(1E5,1E3)
P = np.random.rand(1E5)
%timeit ColumnWiseCorrcoef(O,P)
1 loops, best of 3: 1.33 s per loop
%timeit newColumnWiseCorrcoef(O,P)
1 loops, best of 3: 791 ms per loop