了解FMA指令的性能



我正在努力了解如何最大限度地增加CPU上的操作数量。我正在做一个简单的矩阵乘法程序,我有一个Skylake处理器。我在维基百科上查看了关于这个体系结构的flops信息,但我很难理解它

根据我的理解,FMA指令允许3路FP输入,对吗?并允许在加法和乘法之间混合。但是当我只添加两个浮点数时会发生什么呢?它只是把它乘以一吗?我可以在一个循环中添加3个浮点数吗?还是拆分?我看到skylake有32个FLOP/周期用于单精度输入,但">两个8宽FMA指令"的含义是什么?

提前感谢您的解释

FMA在单个运算中计算±a*b±c,具有单个舍入误差。这就是它的作用,没有别的。使用FMA指令无法计算a+b+c;您需要两个相关的ADD操作。

根据编译器的不同,您可能必须打开编译器选项才能使用FMA指令,因为它们给出的结果与乘后加不同。在某些情况下,您可能需要重新排列代码,例如,ab+cd+e将计算为x=ab;y=FMA(c,d,x),z=y+e,但e+ab+c*d将计算为x=FMA(a,b,e);z=FMA(c,d,x)。FFT的基本运算计算可以用八个浮点运算来执行,并且可以使用四个FMA和两个其他运算重写为10个运算。

"两个8宽FMA指令"意味着它可以用两个256位矢量寄存器执行FMA指令,每个寄存器包含8个浮点,其中两个在同一周期内。

相关内容

  • 没有找到相关文章

最新更新