有人决定做一个快速测试,看看本地客户端在速度方面与javascript相比如何。他们进行了1000万次平方根计算,并测量了所花费的时间。javascript: 0.096秒,NaCl: 4.241秒。这怎么可能呢?速度难道不是使用NaCl的首要原因之一吗?或者我错过了一些编译器标志或什么?
下面是运行的代码:clock_t t = clock();
float result = 0;
for(int i = 0; i < 10000000; ++i) {
result += sqrt(i);
}
t = clock() - t;
float tt = ((float)t)/CLOCKS_PER_SEC;
pp::Var var_reply = pp::Var(tt);
PostMessage(var_reply);
PS:这个问题是出现在本地客户邮件列表中的内容的编辑版本
注意:此回答是出现在本地客户邮件列表中的内容的编辑版本
微基准测试很棘手:除非你非常了解自己在做什么,否则很容易产生与你想要观察/测量的行为完全无关的苹果与橙子的比较。
我将使用您自己的示例详细说明(我将排除NaCl,并坚持使用现有的,"经过验证的"技术)。
下面是你作为本地C程序的测试:
$ cat test1.c
#include <math.h>
#include <time.h>
#include <stdio.h>
int main() {
clock_t t = clock();
float result = 0;
for(int i = 0; i < 1000000000; ++i) {
result += sqrt(i);
}
t = clock() - t;
float tt = ((float)t)/CLOCKS_PER_SEC;
printf("%g %gn", result, tt);
}
$ gcc -std=c99 -O2 test1.c -lm -o test1
$ ./test1
5.49756e+11 25.43
Ok。我们可以在25.43秒内完成10亿次循环。但让我们看看什么需要时间:让我们将"result += sqrt(i);"替换为"result += i;"
$ cat test2.c
#include <math.h>
#include <time.h>
#include <stdio.h>
int main() {
clock_t t = clock();
float result = 0;
for(int i = 0; i < 1000000000; ++i) {
result += i;
}
t = clock() - t;
float tt = ((float)t)/CLOCKS_PER_SEC;
printf("%g %gn", result, tt);
}
$ gcc -std=c99 -O2 test2.c -lm -o test2
$ ./test2
1.80144e+16 1.21
哇!95%的时间实际上花在了cpu提供的sqrt函数上,其他的花费不到5%。但是如果我们稍微改变一下代码:将"printf("%g %gn", result, tt);"替换为"printf("%gn", tt);"
?$ cat test3.c
#include <math.h>
#include <time.h>
#include <stdio.h>
int main() {
clock_t t = clock();
float result = 0;
for(int i = 0; i < 1000000000; ++i) {
result += sqrt(i);
}
t = clock() - t;
float tt = ((float)t)/CLOCKS_PER_SEC;
printf("%gn", tt);
}
$ gcc -std=c99 -O2 test3.c -lm -o test3
$ ./test
1.44
嗯…看起来现在"sqrt"几乎和"+"一样快。这怎么可能呢?印刷到底是如何影响前一个周期的呢?
让我们看到:
$ gcc -std=c99 -O2 test1.c -S -o -
...
.L3:
cvtsi2sd %ebp, %xmm1
sqrtsd %xmm1, %xmm0
ucomisd %xmm0, %xmm0
jp .L7
je .L2
.L7:
movapd %xmm1, %xmm0
movss %xmm2, (%rsp)
call sqrt
movss (%rsp), %xmm2
.L2:
unpcklps %xmm2, %xmm2
addl $1, %ebp
cmpl $1000000000, %ebp
cvtps2pd %xmm2, %xmm2
addsd %xmm0, %xmm2
unpcklpd %xmm2, %xmm2
cvtpd2ps %xmm2, %xmm2
jne .L3
...
$ gcc -std=c99 -O2 test3.c -S -o -
...
xorpd %xmm1, %xmm1
...
.L5:
cvtsi2sd %ebp, %xmm0
ucomisd %xmm0, %xmm1
ja .L14
.L10:
addl $1, %ebp
cmpl $1000000000, %ebp
jne .L5
...
.L14:
sqrtsd %xmm0, %xmm2
ucomisd %xmm2, %xmm2
jp .L12
.p2align 4,,2
je .L10
.L12:
movsd %xmm1, (%rsp)
.p2align 4,,5
call sqrt
movsd (%rsp), %xmm1
.p2align 4,,4
jmp .L10
...
第一个版本实际上调用sqrt十亿次,但第二个版本根本不这样做!相反,它检查数字是否为负,只在这种情况下调用sqrt !为什么?编译器(或者更确切地说,编译器作者)在这里试图做什么?
好吧,这很简单:因为我们没有使用"result"在这个特定的版本,它可以安全地省略"sqrt"调用…如果值不为负,则为!如果它是负的,那么(取决于FPU标志)sqrt可以做不同的事情(返回无意义的结果,使程序崩溃等)。这就是为什么这个版本快了十几倍——但它根本不计算平方根!
这是最后一个例子,它显示了微基准测试可能会出错:
$ cat test4.c
#include <math.h>
#include <time.h>
#include <stdio.h>
int main() {
clock_t t = clock();
int result = 0;
for(int i = 0; i < 1000000000; ++i) {
result += 2;
}
t = clock() - t;
float tt = ((float)t)/CLOCKS_PER_SEC;
printf("%d %gn", result, tt);
}
$ gcc -std=c99 -O2 test4.c -lm -o test4
$ ./test4
2000000000 0
执行时间是…零?怎么可能呢?一眨眼就能算出十亿次?让我们看看:
$ gcc -std=c99 -O2 test1.c -S -o -
...
call clock
movq %rax, %rbx
call clock
subq %rbx, %rax
movl $2000000000, %edx
movl $.LC1, %esi
cvtsi2ssq %rax, %xmm0
movl $1, %edi
movl $1, %eax
divss .LC0(%rip), %xmm0
unpcklps %xmm0, %xmm0
cvtps2pd %xmm0, %xmm0
...
哦,哦,循环完全消除了!所有的计算都是在编译时进行的,更糟糕的是,两个"时钟"调用都是在循环体启动之前执行的!
如果我们把它放在单独的函数中呢?
$ cat test5.c
#include <math.h>
#include <time.h>
#include <stdio.h>
int testfunc(int num, int max) {
int result = 0;
for(int i = 0; i < max; ++i) {
result += num;
}
return result;
}
int main() {
clock_t t = clock();
int result = testfunc(2, 1000000000);
t = clock() - t;
float tt = ((float)t)/CLOCKS_PER_SEC;
printf("%d %gn", result, tt);
}
$ gcc -std=c99 -O2 test5.c -lm -o test5
$ ./test5
2000000000 0
还是一样吗??这怎么可能呢?
$ gcc -std=c99 -O2 test5.c -S -o -
...
.globl testfunc
.type testfunc, @function
testfunc:
.LFB16:
.cfi_startproc
xorl %eax, %eax
testl %esi, %esi
jle .L3
movl %esi, %eax
imull %edi, %eax
.L3:
rep
ret
.cfi_endproc
...
啊哦:编译器足够聪明,用乘法代替循环!
现在,如果你在一边添加NaCl,在另一边添加JavaScript,你将得到一个复杂的系统,其结果实际上是不可预测的。
这里的问题是,对于微基准测试,你试图隔离代码片段,然后评估它的属性,但是编译器(无论是JIT还是AOT)将试图阻止你的努力,因为它试图从你的程序中删除所有无用的计算!
微基准测试确实有用,但它们是取证分析工具,而不是用来比较两个不同系统的速度!为此,你需要一些"真正的"(从某种意义上说:不能被过于急切的编译器优化成碎片的东西)工作负载:排序算法尤其流行。使用sqrt的基准测试尤其令人讨厌,因为正如我们所看到的,通常它们花费超过90%的时间执行一条CPU指令:sqrtsd(如果是32位版本则为fsqrt),当然,JavaScript和NaCl是相同的。这些基准测试(如果执行得当)可以作为一种试金石(如果某些实现的速度与简单的本地版本显示的速度相差太大,那么你就做错了),但它们对于比较NaCl, JavaScript, c#或Visual Basic的速度毫无用处。