SIMD何时更快的经验规则是什么?(SSE2,AVX)



我有一些代码,一次在3个对称集的3个不对称整数值上操作。有大量的条件代码和许多常数。

这已成为一个完美的瓶颈,我正在寻找一些经验法则,因为Simd在64位Intel/AMD CPU上会带来perf perf Fin。该代码很长,我以前从未使用过SSE2或AVX,因此很高兴有一定的想法,即在我投入时间之前是否可能获胜或可能。

如果您愿意列出经验规则或指向现有的白皮书,我将不胜感激。

SSE标签Wiki有几个向量化的指南,包括这些谈话中的幻灯片,这些幻灯片本身是可以理解的,这些幻灯片具有一些很好的例子,可以将数据结构转换为启用矢量化(和经典)例如将[x,y,z,w]几何向量放入单个SIMD向量之类的陷阱)。


SIMD的经典用例是在有很多独立操作时,即环路内没有串行依赖,例如z[i] = d * x[i] + y[i]。或者,如果有,则只能使用可让您重新订购的关联操作。(例如,求和阵列或类似的还原)。

也很重要的是,您可以做到这一点,而无需大量改组;理想情况下,您的所有数据在从连续内存中加载后在向量中"垂直"对齐。

对于相邻元素的多种条件通常对SIMD不利。这需要无分支的实施,因此您必须完成每个分支两侧的所有工作,并合并。除非您可以检查矢量中的所有4个(或所有16个或其他)元素,以相同的方式


即使您可能没有期望,也可以将某些东西矢量化,因为它们是通常的经验法则的例外。例如将IPv4点列字符串转换为32位IPv4地址,或将小数位数转换为整数,即实现atoi()。这些通过巧妙地使用多种不同的技巧来进行矢量化,包括带有矢量 - 包装位图作为LUT的索引的PSHUFB的查找桌面。

因此,一旦知道了一些技巧,就总是根据一些经验规则来快速排除矢量实现。即使是串行依赖性有时也可以解决,例如SIMD前缀总和。

相关内容

  • 没有找到相关文章

最新更新