C语言与英特尔内部故障

我使用Intel intrinsic有以下函数:

int c_lattice_worker( int lm, double* inArr, double* outArr, int arrLen,
             double sin_,  double cos_ ) {
  int xi, yi;
  double x, y;
  __m128d _msin, _mcos;
  __m128d _m0, _m1;
  _msin = _mm_loaddup_pd( &sin_ );
  _mcos = _mm_loaddup_pd( &cos_ );
  for ( int xnc = lm; xnc < (arrLen - (lm << 1)); xnc += 2 ) {
    _m0 = _mm_load_pd( &inArr[ xnc ] );
    _m1 = _mm_shuffle_pd( _m0, _m0, 0x1 );
    _m0 = _mm_mul_pd( _msin, _m0 );
    _m1 = _mm_mul_pd( _mcos, _m1 );
    _m0 = _mm_addsub_pd( _m0, _m1 );
    _mm_store_sd( &outArr[ xnc + 1 ], _m0 ); // segfault here if lm == 1
    _m1 = _mm_shuffle_pd( _m0, _m0, 0x1 );
    _mm_store_sd( &outArr[ xnc     ], _m1 ); // segfault here if lm == 1
    }
  }
  // fliping the lm modifier
  return 1 - lm;
}

数组inArr和outArr具有偶数长度，lm为0或1。如果它是0，那么一切正常工作，但是如果lm是1，那么_mm_store_sd会导致程序出现段错误(或者，换句话说，注释掉这两行会使段错误消失)。对于lm == 1, xnc索引不对齐到16字节，但是根据Intel的文档，_mm_store_sd不需要16字节对齐，只需要_mm_store_pd。我毫无头绪。有什么建议吗?

结果是:

我可以使用_mm_storeu_pd将两个打包的64位浮点数存储到未对齐的内存地址中。
但是当我这样做时，我还必须使用_mm_loadu_pd从未对齐的内存地址加载

所以事实上_mm_load_pd导致了段错误，但是当我注释掉存储操作时，它得到了优化，因为它是死代码。

相关内容

最新更新

热门标签：

C语言 与英特尔内部故障

相关内容

最新更新

热门标签：

C语言与英特尔内部故障