2017-06-07 174 views
2

我正在用C编写一个AVX矩阵向量乘法函数,但是实现了我需要的指令并未在GCC中实现,所以我将它看作是学习某些x86程序集的绝好机会。我首先在MIPS程序集中编写了一个例程,然后尝试翻译它。我的代码不工作,我得到段错误,我不知道为什么。如果我在代码中删除了两个jnz,它可以工作,但我不明白他们为什么会产生任何影响。这种类型的跳转销毁是否注册了我正在使用的?NASM矩阵向量乘法

编辑:看起来main中的前两条指令并没有将rdi设置为2,而是将其设置为0x1000000002,这会在以后造成麻烦。为什么不装2?

EDIT2:明白了。正如@rkhb指出的那样,使用rXX寄存器加载的数据比我预期的要多。我将寄存器更改为32位(如果适用),这解决了段错误问题。但是,现在该程序打印0,0。这是因为循环将eax提前8(在下面的例子中),但是在返回之前不会减去该数量。因此,值为addraddr+4,但返回的指针为addr+8

; nasm -felf64 filename.asm 
; gcc filename.o 

    global main 
    extern printf 

    section .data 
N: dd 2   ; dimension 
a: dd 1, 2, 3, 4  ; matrix 
b: dd 1, 2   ; vector 
format: db "%d", 10, 0 

    section .bss 
c: resb 8   ; reserve 8B 

    section .text 
main: 
    ; set up arguments 
    lea rdi, [N] ; fix: change regs to edi, etc 
    mov rdi, [rdi] 
    lea rsi, [a] 
    lea rdx, [b] 
    lea rcx, [c] 

    call matvec  ; c = a*b 

    ; print results 
    mov rsi, [rax] 
    mov rdi, format 
    push rax 
    mov rax, 0 
    call printf  ; print c[0], should be 5 
    pop rax 
    add rax, 4 
    mov rsi, [rax] 
    mov rdi, format 
    mov rax, 0 
    call printf  ; print c[1], should be 11 

    ret 

; rdi = N, rsi = int*, rdx = int*, rcx = int* 
matvec: 
    mov rax, rcx ; rax = c 
    mov R14, rdi ; r14 = N 
    mov R15, R14 
    shl R15, 2  ; r15 = 4*N 
    xor R8, R8  ; i = 0 
    xor R9, R9  ; j = 0 
    xor R10, R10 ; sum = 0 

loop: 
    mov R11, [rsi] ; r11 = *a 
    mov R12, [rdx] ; r12 = *b 
    imul R11, R12 ; r11 *= r12 
    add R10, R11 ; r10 += r11 
    add rsi, 4  ; a++ 
    add rdx, 4  ; b++ 
    add R9, 1  ; j++ 
    cmp R14, R9 
    jnz loop  ; loop while r14-r9 = N-j != 0 

    mov [rax], R10 ; *c = sum 
    xor R10, R10 ; sum = 0 
    xor R9, R9  ; j = 0 on every i loop 
    sub rdx, R15 ; b -= 4*N 
    add rax, 4  ; c++ 
    add R8, 1  ; i++ 
    cmp R14, R8 
    jnz loop  ; loop while r14-r8 = N-i != 0 

    sub rax, R15 ; fix: subtract 4*N from return pointer 
    ret 
+1

'mov rdi,[rdi]'加载8个字节。但'N:dd 2'只有4个字节大。将'dd'改为'dq'。 – rkhb

+0

谢谢。我认为这可能与它有关,所以我做了更麻烦的更改,即将所有regs从rax更改为eax等。现在它可以工作,但在返回main之后,rax中的值被清零,或者更确切地说,rax指向为零。 –

+0

如果你已经解决了这个问题,你应该把它作为答案发布,而不是作为你的问题的编辑。 –

回答

0

的数据被声明为4个字节,但8字节寄存器(rax等)被用于保持所述数据。当将数据加载到这些寄存器中时,您将使用低4字节的数据和高4字节的垃圾。为避免出现这种情况,请更改声明以便声明8字节数据(使用dq),或使用4字节寄存器(eax等)。

修复将处理分段错误的问题,但程序将返回错误的结果。结果意欲存储在内存地址c,其值保存在rax中。在上面的代码中,该地址会增加4个字节两次;而计算值存储在c[0]c[1]中,rax返回的地址实际上是&c[2]。因此,在返回main之前,您需要将rax减1或减去4*N

编辑:你可以使用GNU调试器检查寄存器,阅读this指南。