NASM 内存寻址



我正在玩程序命令行参数。特别是我正在尝试对字符串 argv[1] 进行一些测试。如果我使用两步法获取 argv[1] 的地址,我的代码运行良好。

mov ebx, [ebp+12]
mov eax, [ebx+4] ; address of argv[1]

如果我使用一个步骤,我的程序会打印乱码。

mov eax, [ebp+16] ; address of argv[1]

我假设这两种方法现在都会引用地址 [ebp+16] 是否正确?我错过了一些微不足道的东西吗?

在程序集中使用指向指针的指针时,很容易混淆。

argv是一个"字符串数组",或者更好的是指向 char 的指针数组,因为在 C 数组中,当作为参数传递时,它会衰减为指向其项目类型的指针,实际上argv它是一个指向 char 或char** argv的指针。

这告诉我们,我们需要两个取消引用来访问任何字符串的字符,一个去访问指向任何此类字符串的任何指针。

假设cdecl约定,其中参数以相反的顺序在堆栈上传递,并假设设置标准帧指针的标准 prolog,我们得到argc的值为ebp+0ch.
请注意,ebp具有指针的语义,因此ebp+0ch只是指针算术来获取另一个指针,这次指向argc值。

如果我们愿意给ebp+0ch一个C类型,那将是char***,因此需要两个取消引用来访问指针argv[1]

argv[1]进入ESI的代码是:

;typeof(ebp+0ch) = char***
mov esi, DWORD [ebp+0ch]      ;1st defer, esi = argv, typeof(esi) = char**
mov esi, DWORD [esi+04h]      ;2nd defer, esi = argv[1], typeof(esi) = char*
;Optional, Get a char
mov al, BYTE [esi]            ;3rd defer, al = argv[1][0], typeof(al) = char

类型检查。


听起来令人困惑?
让我们画出这些指针!

The stack                                     The memory
100ch | 2000h  | argv                         2000h | 2008h   | argv[0]
1008h | 2      | argc                         2004h | 2010h   | argv[1]
1004h | yyyyyy | return address               2008h | file    | argv[0][0..3]
1000h | xxxxxx | old frame pointer            200ch | .a  | argv[0][4..7]
2010h | -arg    | argv[1][0..3]
EBP = 1000h                                   2014h | 1 | argv[1][4..7]

ebp+0ch是 1000h + 0ch = 100ch,它是argv值的地址。
mov esi, DWORD [ebp+0ch]就像mov esi, DWORD [100ch],它将ESI设置为 2000h.2000h
argv的值,它是一个数组,所以它是argv[0]的地址。

argv[1]的地址是前四个字节,因此 2000h+04h = 2004h。mov esi, DWORD [esi+04h]就像mov esi, DWORD [2004h]一样,它将ESI设置为 2010h.2010h
是字符串"-arg1"的地址。


请注意,上图不符合 C C++也不符合标准,因为argv[argc]必须为 0。
我把它排除在外。

这是您问题的答案。

mov eax, [ebp+16] 
lea ebx, [ebp+12] 
mov eax, [ebx+4]

mov eax, [ebp+16]
mov ebx, ebp
add ebx, 12
mov eax, [ebx+4]

前者节省了几个字节的代码,但它们在功能上是等效的。

最新更新