>我有一个带有两个 64 位整数成员的结构 X 和一个构造函数:
struct X
{
X(uint64_t a, uint64_t b)
{
a_ = a; b_ = b;
}
uint64_t a_, b_;
};
当我查看编译器输出(x86-64gcc 8.3 和 x86-64 clang 8.0.0,在 64 位 Linux 上)时,没有启用优化,我看到构造函数的以下代码。
x86-64 GCC 8.3:
X::X(unsigned long, unsigned long):
push rbp
mov rbp, rsp
mov QWORD PTR [rbp-8], rdi
mov QWORD PTR [rbp-16], rsi
mov QWORD PTR [rbp-24], rdx
mov rax, QWORD PTR [rbp-8]
mov QWORD PTR [rax], 0
mov rax, QWORD PTR [rbp-8]
mov QWORD PTR [rax+8], 0
mov rax, QWORD PTR [rbp-8]
mov rdx, QWORD PTR [rbp-16]
mov QWORD PTR [rax+8], rdx
mov rax, QWORD PTR [rbp-8]
mov rdx, QWORD PTR [rbp-24]
mov QWORD PTR [rax], rdx
nop
pop rbp
ret
x86-64 clang 8.0.0:
X::X(unsigned long, unsigned long):
push rbp
mov rbp, rsp
mov qword ptr [rbp - 8], rdi
mov qword ptr [rbp - 16], rsi
mov qword ptr [rbp - 24], rdx
mov rdx, qword ptr [rbp - 8]
mov qword ptr [rdx], 0
mov qword ptr [rdx + 8], 0
mov rsi, qword ptr [rbp - 16]
mov qword ptr [rdx + 8], rsi
mov rsi, qword ptr [rbp - 24]
mov qword ptr [rdx], rsi
pop rbp
ret
有谁知道为什么输出如此复杂? 我本来期望两个简单的"mov"语句,即使没有启用优化。
未优化的代码始终将所有C++变量(包括函数参数)存储到语句之间的内存位置,以便调试器可以读取甚至修改这些值。 (而且因为它没有花任何时间进行寄存器分配。 这包括在函数的第一个C++语句之前将寄存器参数存储到内存中。
这是英特尔语法汇编,就像gcc -masm=intel
一样,所以它使用目标、源顺序。 (我们可以通过使用PTR,方括号和寄存器名称缺乏%
来判断。
前 3 个存储是按照 x86-64 System V ABI 的调用约定在寄存器 RDI、RSI 和 RDX 中传递的函数参数(this, a, b)
。
mov QWORD PTR [rbp-8], rdi # this
mov QWORD PTR [rbp-16], rsi # a
mov QWORD PTR [rbp-24], rdx # b
现在,它正在将this
加载到rax
中,并将零写入a_
和b_
,因为您没有使用正确的构造函数初始化。或者,您可能使用此处未显示的一些代码或奇数编译器选项将初始化添加到零。
mov rax, QWORD PTR [rbp-8]
mov QWORD PTR [rax], 0 # this->a_ = 0
mov rax, QWORD PTR [rbp-8]
mov QWORD PTR [rax+8], 0 # this->b_ = 0
然后它再次将this
加载到rax
中并a
到rdx
中,然后用rdx
又名a
写入this->a_
。b
也一样.
等等,实际上这必须首先写入b_
,然后写入a_
因为需要结构来匹配声明和内存顺序。所以[rax+8]
必须b_
,而不是a_
。
mov rax, QWORD PTR [rbp-8]
mov rdx, QWORD PTR [rbp-16] # reload a
mov QWORD PTR [rax+8], rdx # this->b_ = a
mov rax, QWORD PTR [rbp-8]
mov rdx, QWORD PTR [rbp-24] # reload b
mov QWORD PTR [rax], rdx # this->a_ = b
因此,您的 asm 与您问题中的C++来源不匹配。
会发生什么,为什么?
如果不启用优化,编译器会将所有变量存储在堆栈上,编译器将返回堆栈上的所有值。这样做的原因是,它使调试器更容易跟踪程序中发生的事情:他们可以观察程序的堆栈。
此外,每个函数都必须在进入函数时更新堆栈指针,并在退出函数时重置堆栈指针。这也是为了调试器的好处:调试器始终可以准确地判断您何时进入或退出函数。
使用-O0
代码:
X::X(unsigned long, unsigned long):
push rbp // Push the frame pointer to the stack
mov rbp, rsp // Copy the frame pointer to the rsb register
// Create the object (on the stack)
mov QWORD PTR [rbp-8], rdi
mov QWORD PTR [rbp-16], rsi
mov QWORD PTR [rbp-24], rdx
mov rax, QWORD PTR [rbp-8]
mov rdx, QWORD PTR [rbp-16]
mov QWORD PTR [rax], rdx
mov rax, QWORD PTR [rbp-8]
mov rdx, QWORD PTR [rbp-24]
mov QWORD PTR [rax+8], rdx
nop // IDEK why it does this
// Pop the frame pointer
pop rbp
ret
使用-O1
代码:
X::X(unsigned long, unsigned long):
mov rax, rdi
mov rdx, rsi
ret
这重要吗?
有点。没有优化的代码要慢得多,特别是因为编译器必须做这样的事情。但是几乎没有理由不启用优化。
如何调试优化的代码
gcc 和 clang 都有-Og
选项:此选项打开所有不影响调试的优化。如果代码的调试版本运行缓慢,请尝试使用-Og
进行编译。
使用-Og
代码:
X::X(unsigned long, unsigned long):
mov rax, rdi
mov rdx, rsi
ret
资源
有关使代码易于调试的-Og
和其他选项的详细信息:https://gcc.gnu.org/onlinedocs/gcc/Debugging-Options.html
有关优化和优化选项的更多信息:https://gcc.gnu.org/onlinedocs/gcc/Optimize-Options.html#Optimize-Options
正如其他人所评论的那样,当你不要求编译器时,编译器没有义务优化你的代码,但很多低效率源于:
- 编译器溢出的参数在进入函数时传递到堆栈上的保留区域(然后使用堆栈上的副本)
- 英特尔没有内存到内存 MOV 指令的事实
这两个因素结合起来,为您提供了在反汇编中看到的代码(尽管 clang 显然比这里的 gcc 做得更好)。
编译器将这些寄存器溢出到堆栈以使调试更容易 - 因为它们位于堆栈上,因此传递到函数中的参数在整个函数中仍然可用,这在调试时非常有用。 此外,当您意识到上述参数的值实际上应该是什么并希望继续调试会话时,您可以玩一些技巧,例如在继续执行之前在断点处修补上述参数的新值。
我不确定为什么两个编译器在反汇编中分配给它们之前都a_
和b_
归零。 我在Godbolt没有看到这一点。