如何对函数进行基准测试?查看callgrind的结果,我发现我的程序在pow
中花费了大量时间。由于我不需要完全的工作精度,我认为我可以创建一个查找表,并在表中的点之间使用线性插值。为了能够评估查询表方法,我需要度量时间。所以我这样做:
#ifdef __WAND__
target[name[test2.exe] type[application] platform[;Windows]]
target[name[test2] type[application]]
#endif
#include <herbs/main/main.h>
#include <herbs/tictoc/tictoc.h>
#include <herbs/array_fixedsize/array_fixedsize.h>
#include <random>
#include <cstdio>
#include <cmath>
class GetRand
{
public:
GetRand(double min,double max):U(min,max){}
bool operator()(double* val,size_t n,size_t N)
{
*val=U(randsource);
return 1;
}
private:
std::mt19937 randsource;
std::uniform_real_distribution<double> U;
};
int MAIN(int argc,charsys_t* argv[])
{
Herbs::ArrayFixedsize<double> vals(1024*1024*128,GetRand(-4,4));
const size_t N=16;
auto n=N;
while(n)
{
double start=0;
auto ptr=vals.begin();
{
Herbs::TicToc timestamp(start);
while(ptr!=vals.end())
{
pow(2,*ptr);
++ptr;
}
}
// I have set cpu-freq to 1.6 GHz using cpufreq-set
printf("%.15gt",1.6e9*start/vals.length());
--n;
}
return 0;
}
运行此程序时,每次迭代输出约2.25个周期。这似乎很低,因为pow
的实现似乎是(如果callgrind
给了我__ieee754_pow
)。
在x86-64上编译GNU/Linux时,汇编中的基准循环看起来像这样:
call _ZN5Herbs6TicTocC1ERd@PLT
movq %r14, %rbx
.p2align 4,,10
.p2align 3
.L28:
vmovsd (%rbx), %xmm1
vucomisd .LC6(%rip), %xmm1
jb .L25
vmovsd .LC7(%rip), %xmm0
call pow@PLT
.L25:
addq $8, %rbx
cmpq %r12, %rbx
jne .L28
movq %rbp, %rdi
call _ZN5Herbs6TicTocD1Ev@PLT
至少调用pow
。我能相信输出吗?还是有什么黑魔法可以消除这些东西?
在对函数进行基准测试时需要考虑以下几点:
1)确保缓存缺失不会显著影响结果。在您的案例中,您迭代了大量数据,导致大量缓存未命中。使用一个更小的数组来代替,它可以很容易地放入L1缓存并循环多次。
2)确保编译器无法优化这些函数调用的副作用。在你的情况下,编译器没有做一个很好的优化工作,因为pow()
调用没有优化出来,即使没有副作用。更喜欢使用整数副作用来避免浮点性能异常(例如,将float转换为uint32并将它们相加,而不是使用浮点数进行加法)。
3)多次展开循环以减少循环的开销。目前,您每个循环只执行单个功率,而循环为这个简单的函数调用增加了相对较大的开销。
4)配置文件与充分优化和内联启用。
5)多次运行分析,以确保其他过程不会影响您的结果。选择最佳结果进行比较(即来自其他进程的干扰最少)。