SSE4存储器与差分位置进行比较

我自己的实现在尝试使用SSE4：

进行优化时咬住了我

std::distance(byteptr, std::mismatch(byteptr, ptr + lenght, dataptr).first)

这比较了Byteptr和数据，并返回索引不匹配。我确实确实需要原始速度，因为我正在处理如此多的内存，RAM速度已经是瓶颈。在时间时与SSE4进行比较16个字节将提供速度提升，因为比较时间更快。

。

这是我无法使用的当前代码。它使用GCC SSE Intersics，并且需要SSE4.2：

// define SIMD 128-bit type of bytes.
typedef char v128i __attribute__ ((vector_size(16)));
// mask of four low bits set.
const uintptr_t aligned_16_imask = (uintptr_t)15;
// mask of four low bits unset.
const uintptr_t aligned_16_mask = ~aligned_16_imask;
inline unsigned int cmp_16b_sse4(v128i *a, v128i *b) {
    return __builtin_ia32_pcmpistri128(__builtin_ia32_lddqu((char*)a), *b, 0x18);  
}
size_t memcmp_pos(const char * ptr1, const char * ptr2, size_t lenght)
{
    size_t nro = 0;
    size_t cmpsz;
    size_t alignlen = lenght & aligned_16_mask;
    // process 16-bytes at time.
    while(nro < alignlen) {
        cmpsz = cmp_16b_sse4((v128i*)ptr1, (v128i*)ptr2);
        ptr1 += cmpsz;
        ptr2 += cmpsz;
        nro += cmpsz;
        // if compare failed return now.
        if(cmpsz < 16)
            return nro;
        if(cmpsz != 16)
            break;
    }
    // process remainder 15 bytes:
    while( *ptr1 == *ptr2 && nro < lenght) {
        ++nro;
        ++ptr1;
        ++ptr2;
    }
    return nro;
}

测试上述功能时，大部分时间都可以工作，但在某些情况下会失败。

pcmpistri的一个已知问题是，它始终读取整个16个字节 - 甚至超出了变量的末尾。这成为页面边界上的问题，在分配给未分配的内存的边界上。请参阅此处（向下滚动到" Renat Saifutdinov"）。

即使支持未对齐的读取，也可以仅使用对源的对齐读取，请参阅此答案。

这可能是您的代码失败的可能性之一。

相关内容

最新更新

热门标签：