x86和x86_64中浮点和双精度之间的性能差异

不久前，我听说一些编译器使用SSE2扩展来进行x86_64体系结构的浮点运算，所以我使用这段简单的代码来确定它们之间的性能差异。

我通过BIOS禁用了Intel SpeedStep技术，系统负载与我的测试大致相等。我在OpenSuSE 64位上使用GCC 4.8。

我正在写一个有很多FPU操作的程序，我想知道这个测试是否有效？

并且任何关于在每种架构下float和double之间的性能差异的信息都是值得赞赏的。

代码：

#include <iostream>
#include <sys/time.h>                
#include <vector>
#include <cstdlib>
using namespace std;
int main()
{
    timeval t1, t2;
    double elapsedTime;
    double TotalTime = 0;

    for(int j=0 ; j < 100 ; j++)
    {
        // start timer
        gettimeofday(&t1, NULL);
        vector<float> RealVec;
        float temp;
        for (int i = 0; i < 1000000; i++)
        {
            temp = static_cast <float> (rand()) / (static_cast <float> (RAND_MAX));
            RealVec.push_back(temp);
        }
        for (int i = 0; i < 1000000; i++)
            {
                RealVec[i] = (RealVec[i]*2-435.345345)/15.75;
            }
        // stop timer
        gettimeofday(&t2, NULL);
        elapsedTime = (t2.tv_sec - t1.tv_sec) * 1000.0;      // sec to ms
        elapsedTime += (t2.tv_usec - t1.tv_usec) / 1000.0;   // us to ms
        TotalTime = TotalTime + elapsedTime;
    }

    cout << TotalTime/100 << " ms.n";
    return 0;
}

结果：

32位双

157.781毫秒。151.994毫秒。152.244毫秒

32位浮点

149.896毫秒。148.489毫秒。161.086毫秒

64位双

110.125毫秒。111.612毫秒。113.818毫秒

64位浮点

110.393毫秒。106.78ms。107.833毫秒

你真的没有测量多少；也许只是编译器的程度优化。为了使测量有效必须对结果做些什么，否则编译器可以优化全部或主要部分的测试。我要做的是初始化向量，2）得到开始时间（可能使用clock，因为只考虑CPU时间），3）执行第二个循环a 100（或更多至少持续几秒钟）次，4）获得结束时间，最后，5）输出矢量中元素的总和。

关于差异，您可能会发现：独立于浮点处理器，64位机器有更多的通用寄存器供编译器使用。这可能会产生巨大的影响。除非您查看生成的汇编程序，否则您无法知道。

不是真正有效的。您基本上是在测试随机数生成器的性能。

此外，您并没有试图强制执行SSE2 SIMD操作，所以您不能真正声称这与SSE相关。

在什么意义上有效？

使用实际代码测量实际使用情况。

一些人工测试套件可能无法帮助您评估性能特征。

您可以使用typedef，然后通过轻按开关来更改实际的底层类型。

相关内容

最新更新

热门标签：