x86 中的原子测试和设置:内联 asm 或编译器生成的锁定 bts

以下代码在编译时为 xeon phi 抛出 Error: cmovc is not supported on k1om .

但它确实可以针对常规至强处理器正确编译。

#include<stdio.h>
int main()
{
    int in=5;
    int bit=1;
    int x=0, y=1;
    int& inRef = in;
    printf("in=%dn",in);
    asm("lock bts %2,%0ncmovc %3,%1" : "+m" (inRef), "+r"(y) : "r" (bit), "r"(x));
    printf("in=%dn",in);
}

编译器 - icc (ICC) 13.1.0 20130121

相关问题：tbb原子变量上的位测试和设置（BTS）

IIRC，第一代至强融核基于P5内核（Pentium和Pentium MMX）。 cmov直到P6（又名Pentium Pro）才推出。所以我认为这很正常。

只需让编译器通过编写普通的三元运算符来完成其工作即可。

其次，cmov是一个比setc更糟糕的选择，因为你想基于进位标志生成一个 0 或 1。请参阅下面的我的 asm 代码。

另请注意，带有内存操作数的bts速度非常慢，因此您无论如何都不希望它生成该代码，尤其是在将x86指令解码为uops（如现代Xeon）的CPU上。根据 http://agner.org/optimize/的说法，即使在P5上，bts m, r也比bts m, i慢得多，所以不要这样做。

只需要求编译器将in放在寄存器中，或者更好的是，不要为此使用内联 asm。

由于OP显然希望它以原子方式工作，因此最好的解决方案是使用C++11的std::atomic::fetch_or，并将其留给编译器生成lock bts。

std：：atomic_flag 具有test_and_set功能，但如果有办法将它们紧密包装，IDK 就会。也许作为结构中的位域？不过不太可能。我也看不到std::bitset的原子操作.

不幸的是，当前版本的 gcc 和 clang 不会从fetch_or生成lock bts，即使可以使用更快的即时操作数形式。我想出了以下内容（神螺栓链接）：

#include <atomic>
#include <stdio.h>
// wastes instructions when the return value isn't used.
// gcc 6.0 has syntax for using flags as output operands
// IDK if lock BTS is better than lock cmpxchg.
// However, gcc doesn't use lock BTS even with -Os
int atomic_bts_asm(std::atomic<unsigned> *x, int bit) {
  int retval = 0;  // the compiler still provides a zeroed reg as input even if retval isn't used after the asm :/
  // Letting the compiler do the xor means we can use a m constraint, in case this is inlined where we're storing to already zeroed memory
  // It unfortunately doesn't help for overwriting a value that's already known to be 0 or 1.
  asm( // "xor      %[rv], %[rv]nt"
       "lock bts %[bit], %[x]nt"
       "setc     %b[rv]nt"  // hope that the compiler zeroed with xor to avoid a partial-register stall
        : [x] "+m" (*x), [rv] "+rm"(retval)
        : [bit] "ri" (bit));
  return retval;
}
// save an insn when retval isn't used, but still doesn't avoid the setc
// leads to the less-efficient setc/ movzbl sequence when the result is needed :/
int atomic_bts_asm2(std::atomic<unsigned> *x, int bit) {
  uint8_t retval;
  asm( "lock bts %[bit], %[x]nt"
       "setc     %b[rv]nt"
        : [x] "+m" (*x), [rv] "=rm"(retval)
        : [bit] "ri" (bit));
  return retval;
}

int atomic_bts(std::atomic<unsigned> *x, unsigned int bit) {
  // bit &= 31; // stops gcc from using shlx?
  unsigned bitmask = 1<<bit;
  //int oldval = x->fetch_or(bitmask, std::memory_order_relaxed);
  int oldval = x->fetch_or(bitmask, std::memory_order_acq_rel);
  // acquire and release semantics are free on x86
  // Also, any atomic rmw needs a lock prefix, which is a full memory barrier (seq_cst) anyway.
  if (oldval & bitmask)
    return 1;
  else
    return 0;
}

如在 x86 程序集中将寄存器设置为零的最佳方法是什么：异或、mov 或 and？中所述，当结果需要作为 0 或 1 值时，xor/set-flags/setc 是所有现代 CPU 的最佳顺序。我实际上还没有考虑过P5，但是setcc P5上速度很快，所以应该没问题。

当然，如果你想在这个上面分支而不是存储它，内联 asm 和 C 之间的边界是一个障碍。花费两条指令来存储 0 或 1，只是为了测试/分支它，这将是非常愚蠢的。

GCC6 的标志操作数语法当然值得研究，如果它是一个选项。（如果您需要面向英特尔 MIC 的编译器，则可能不会。

相关内容

最新更新

热门标签：