Theano的reduce操作加速



编辑
很抱歉,事实证明,在我进行测试时,我的GPU上运行了其他进程,我在空闲的GPU上更新了计时结果,对于较大的矩阵,加速变得明显。

原始帖子:

如本问题中所述,L是矩阵列表,其中每个项Mx*n矩阵(x是变量,n是固定的)。

我想像下面的Python代码那样计算L中所有项的M'*M之和(M'M的转置)。

for M in L:
  res += np.dot(M.T, M)

以下是Numpy和Theano实现的一些示例(有关可执行脚本,请参阅@DanielRenshaw对上一个问题的回答)。

def numpy_version1(*L):
    n = L[0].shape[1]
    res = np.zeros((n, n), dtype=L[0].dtype)
    for M in L:
        res += np.dot(M.T, M)
    return res
def compile_theano_version1(number_of_matrices, n, dtype):
    L = [tt.matrix() for _ in xrange(number_of_matrices)]
    res = tt.zeros(n, dtype=dtype)
    for M in L:
        res += tt.dot(M.T, M)
    return theano.function(L, res)
def compile_theano_version2(number_of_matrices, n):
    L = theano.typed_list.TypedListType(tt.TensorType(theano.config.floatX, broadcastable=(None, None)))()
    res, _ = theano.reduce(fn=lambda i, tmp: tmp+tt.dot(L[i].T, L[i]),
                           outputs_info=tt.zeros((n, n), dtype=theano.config.floatX),
                           sequences=[theano.tensor.arange(number_of_matrices, dtype='int64')])
    return theano.function([L], res)

我在CPU上运行了Numpy版本,在GPU上运行了不同设置的Theano版本,似乎Theano版本总是按比例比Numpy版本慢(无论场景的数量和大小)。

但我预计GPU可能会有一些优化,因为这是一个简单的reduce操作。

有人能帮我了解引擎盖下面发生了什么吗?

编辑:
以下是生成数据的脚本(来自@DanielRenshaw)、我厌倦的设置和结果。

L = [np.random.standard_normal(size=(x, n)).astype(dtype)
     for x in range(min_x, number_of_matrices + min_x)]
dtype = 'float32'
theano.config.floatX = dtype
iteration_count = 10
min_x = 20
# base case:
# numpy_version1 0.100589990616
# theano_version1 0.243968963623
# theano_version2 0.198153018951
number_of_matrices = 200
n = 100
# increase matrix size:
# numpy_version1 4.90120816231
# theano_version1 0.984472036362
# theano_version2 3.56008815765
number_of_matrices = 200
n = 1000
# increase number of matrices:
# numpy_version1 5.11445093155
# theano_version1 compilation error
# theano_version2 6.54448604584
number_of_matrices = 2000
n = 100

问题不在于矩阵的个数,而在于矩阵的大小。

您的测试示例创建了大小取决于矩阵数量的矩阵,因此,矩阵越多,矩阵就越大,但python循环开销也越大(在reduce操作中),因此,更难检测速度的提高。

我已经修改了你的矩阵生成,以便进行一些新的测试:

S = 1000 # Size of the matrices
N = 10 # Number of matrices
L = [np.random.standard_normal(size=(np.random.randint(S//2, S*2), S)).astype(np.float32) for _ in range(N)]

这仅生成大小为(x, 1000)的10个矩阵,其中x[S//2, S*2] == [500, 2000]范围内的某个值。

f1 = compile_theano_version1(N, S, np.float32)
f2 = compile_theano_version2(N, S)

  • 现在用N = 10大矩阵进行一些测试:

对于S = 1000N = 10:

 %timeit numpy_version1(*L)   # 10 loops, best of 3: 131 ms per loop
 %timeit f1(*L)               # 10 loops, best of 3: 37.3 ms per loop
 %timeit f2(L)                # 10 loops, best of 3: 68.7 ms per loop

在笔记本电脑中,所有功能都有一个x4x2加速,有一个非常好的i7和一个不错的NVIDIA 860M(这意味着你应该在这里得到一些更好的加速)。

对于S = 5000N = 10:

 %timeit numpy_version1(*L)   # 1 loops, best of 3: 4 s per loop
 %timeit f1(*L)               # 1 loops, best of 3: 907 ms per loop
 %timeit f2(L)                # 1 loops, best of 3: 1.77 s per loop

因此,总的来说,在这种设置下,S越大,CPU的加速就越大。


  • N = 100大矩阵的一些测试:结果似乎更快

对于S = 1000N = 100:

%timeit numpy_version1(*L)   # 1 loops, best of 3: 1.46 s per loop
%timeit f1(*L)               # 1 loops, best of 3: 408 ms per loop
%timeit f2(L)                # 1 loops, best of 3: 724 s per loop

对于S = 2000N = 100:

%timeit numpy_version1(*L)   # 1 loops, best of 3: 11.3 s per loop
%timeit f1(*L)               # 1 loops, best of 3: 2.72 s per loop
%timeit f2(L)                # 1 loops, best of 3: 4.01 s per loop

  • 使用N = 100小矩阵进行测试:numpy似乎更快

对于S = 50N = 100:

%timeit numpy_version1(*L)   # 100 loops, best of 3: 1.17 ms per loop
%timeit f1(*L)               # 100 loops, best of 3: 4.21 ms per loop
%timeit f2(L)                # 100 loops, best of 3: 7.42 ms per loop

测试规范:

  • 处理器:i7 4710HQ
  • GPU:NVIDIA GeForce GTX 860M
  • Numpy:使用英特尔MKT构建的1.10.2版本
  • Theano:版本0.70;floatX=float32;使用GPU

最新更新