在下面的示例中,在 32 位架构上运行 64 位 ELF 更快,我不明白为什么。我尝试了两个例子,一个使用除法,另一个使用乘法。表现如预期,然而,该部门的表现令人惊讶。
我们在程序集上看到编译器正在调用 _alldiv
它模拟 64 位架构上的 32 位除法,因此它必须比简单地使用汇编指令idiv
慢。所以我不明白我得到的结果:
我的设置是:Windows 10 x64,Visual Studio 2019
要计时我使用的代码Measure-Command { .out.exe }
:
- 乘法
- 32 位 ELF:3360 ms
- 64 位 ELF:1469 ms
- 划分
- 32 位 ELF:7383 ms
- 64 位 ELF:8567 ms
法典
#include <stdio.h>
#include <stdlib.h>
#include <stdint.h>
#include <limits.h>
#include <Windows.h>
volatile int64_t m = 32;
volatile int64_t n = 12;
volatile int64_t result;
int main(void)
{
for (size_t i = 0; i < (1 << 30); i++)
{
# ifdef DIVISION
result = m / n;
# else
result = m * n;
# endif
m += 1;
n += 3;
}
}
64 位反汇编(除法(
for (size_t i = 0; i < (1 << 30); i++)
00007FF60DA81000 mov r8d,40000000h
00007FF60DA81006 nop word ptr [rax+rax]
{
result = m / n;
00007FF60DA81010 mov rcx,qword ptr [n (07FF60DA83038h)]
00007FF60DA81017 mov rax,qword ptr [m (07FF60DA83040h)]
00007FF60DA8101E cqo
00007FF60DA81020 idiv rax,rcx
00007FF60DA81023 mov qword ptr [result (07FF60DA83648h)],rax
m += 1;
00007FF60DA8102A mov rax,qword ptr [m (07FF60DA83040h)]
00007FF60DA81031 inc rax
00007FF60DA81034 mov qword ptr [m (07FF60DA83040h)],rax
n += 3;
00007FF60DA8103B mov rax,qword ptr [n (07FF60DA83038h)]
00007FF60DA81042 add rax,3
00007FF60DA81046 mov qword ptr [n (07FF60DA83038h)],rax
00007FF60DA8104D sub r8,1
00007FF60DA81051 jne main+10h (07FF60DA81010h)
}
}
32 位反汇编(除法(
for (size_t i = 0; i < (1 << 30); i++)
00A41002 mov edi,40000000h
00A41007 nop word ptr [eax+eax]
{
result = m / n;
00A41010 mov edx,dword ptr [n (0A43018h)]
00A41016 mov eax,dword ptr ds:[00A4301Ch]
00A4101B mov esi,dword ptr [m (0A43020h)]
00A41021 mov ecx,dword ptr ds:[0A43024h]
00A41027 push eax
00A41028 push edx
00A41029 push ecx
00A4102A push esi
00A4102B call _alldiv (0A41CD0h)
00A41030 mov dword ptr [result (0A433A0h)],eax
00A41035 mov dword ptr ds:[0A433A4h],edx
m += 1;
00A4103B mov eax,dword ptr [m (0A43020h)]
00A41040 mov ecx,dword ptr ds:[0A43024h]
00A41046 add eax,1
00A41049 mov dword ptr [m (0A43020h)],eax
00A4104E adc ecx,0
00A41051 mov dword ptr ds:[0A43024h],ecx
n += 3;
00A41057 mov eax,dword ptr [n (0A43018h)]
00A4105C mov ecx,dword ptr ds:[0A4301Ch]
00A41062 add eax,3
00A41065 mov dword ptr [n (0A43018h)],eax
00A4106A adc ecx,0
00A4106D mov dword ptr ds:[0A4301Ch],ecx
00A41073 sub edi,1
00A41076 jne main+10h (0A41010h)
}
}
编辑
为了进一步调查克里斯·多德(Chris Dodd(,我稍微修改了我的代码,如下所示:
volatile int64_t m = 32000000000;
volatile int64_t n = 12000000000;
volatile int64_t result;
这次我有这些结果:
- 划分
- 32 位 ELF:22407 ms
- 64 位 ELF:17812 ms
如果您查看 x86 处理器的指令时序,就会发现在最近的英特尔处理器上,64 位分频的成本是 32 位分频的 3-4 倍——如果您查看 alldiv 的内部结构(上面评论中的链接(,对于始终适合 32 位的值,它将使用单个 32 位除法......