矩阵运算使用代码矢量化



我写了一个函数来做4x4矩阵的转置,但我不知道如何扩展矩阵m x n的代码。

我在哪里可以找到一些样本代码与SSE矩阵操作?乘积,转置,逆等等?

这是转置4x4的代码:

 void transpose(float* src, int n) {
    __m128  row0,   row1,   row2,   row3;
    __m128 tmp1;
    tmp1=_mm_loadh_pi(_mm_loadl_pi(tmp1, (__m64*)(src)), (__m64*)(src+ 4));
    row1=_mm_loadh_pi(_mm_loadl_pi(row1, (__m64*)(src+8)), (__m64*)(src+12));
    row0=_mm_shuffle_ps(tmp1, row1, 0x88);
    row1=_mm_shuffle_ps(row1, tmp1, 0xDD);
    tmp1=_mm_movelh_ps(tmp1, row1);
    row1=_mm_movehl_ps(tmp1, row1);
    tmp1=_mm_loadh_pi(_mm_loadl_pi(tmp1, (__m64*)(src+ 2)), (__m64*)(src+ 6));
    row3= _mm_loadh_pi(_mm_loadl_pi(row3, (__m64*)(src+10)), (__m64*)(src+14));
    row2=_mm_shuffle_ps(tmp1, row3, 0x88);
    row3=_mm_shuffle_ps(row3, tmp1, 0xDD);
    tmp1=_mm_movelh_ps(tmp1, row3);
    row3=_mm_movehl_ps(tmp1, row3);
    _mm_store_ps(src, row0);
    _mm_store_ps(src+4, row1);
    _mm_store_ps(src+8, row2);
    _mm_store_ps(src+12, row3);
}

我不确定如何有效地使用SIMD对任意矩阵进行就地转置,但我确实知道如何为不合适的矩阵进行转置。让我来描述一下如何做到这两点

原地转置

对于就地转置,您应该查看Agner Fog在c++手册中的优化软件。参见第9.10节"大型数据结构中的缓存争用"例9.5a。对于某些矩阵大小,由于缓存混叠,您将看到性能的大幅下降。为什么转置512x512的矩阵比转置513x513的矩阵慢得多?Agner在例9.5b中给出了一种使用循环平铺(类似于Paul R描述的)来修复这个问题的方法。

位置错位

在这里看到我的答案(投票最多的一个)在c++中转置矩阵的最快方法是什么?我已经很久没有研究这个了,让我在这里重复一下我的代码:

inline void transpose4x4_SSE(float *A, float *B, const int lda, const int ldb) {
    __m128 row1 = _mm_load_ps(&A[0*lda]);
    __m128 row2 = _mm_load_ps(&A[1*lda]);
    __m128 row3 = _mm_load_ps(&A[2*lda]);
    __m128 row4 = _mm_load_ps(&A[3*lda]);
     _MM_TRANSPOSE4_PS(row1, row2, row3, row4);
     _mm_store_ps(&B[0*ldb], row1);
     _mm_store_ps(&B[1*ldb], row2);
     _mm_store_ps(&B[2*ldb], row3);
     _mm_store_ps(&B[3*ldb], row4);
}
inline void transpose_block_SSE4x4(float *A, float *B, const int n, const int m, const int lda, const int ldb ,const int block_size) {
    #pragma omp parallel for
    for(int i=0; i<n; i+=block_size) {
        for(int j=0; j<m; j+=block_size) {
            int max_i2 = i+block_size < n ? i + block_size : n;
            int max_j2 = j+block_size < m ? j + block_size : m;
            for(int i2=i; i2<max_i2; i2+=4) {
                for(int j2=j; j2<max_j2; j2+=4) {
                    transpose4x4_SSE(&A[i2*lda +j2], &B[j2*ldb + i2], lda, ldb);
                }
            }
        }
    }   
}

这是一种可以用于使用平铺对NxN矩阵进行转置的通用方法。您甚至可以使用现有的4x4转置并使用4x4瓷砖大小:

for each 4x4 block in the matrix with top left indices r, c
    if block is on diagonal (i.e. if r == c)
         get block a = 4x4 block at r, c
         transpose block a
         store block a at r, c
    else if block is above diagonal (i.e. if r < c)
         get block a = 4x4 block at r, c
         get block b = 4x4 block at c, r
         transpose block a
         transpose block b
         store transposed block a at c, r
         store transposed block b at r, c
    else // block is below diagonal
         do nothing
    endif
endfor

显然,N需要是4的倍数才能工作,否则您将需要做一些额外的家务。

正如上面在评论中提到的,MxN 就地转置很难做到——您需要使用额外的临时矩阵(这有效地使其成为非就地转置)或使用这里描述的方法,但是使用SIMD进行矢量化要困难得多。

最新更新