我正在开发一个iOS应用程序,该应用程序需要相当快地从RGB -> BGRA转换图像。 如果可能的话,我想使用 NEON 内部函数。 有没有比简单地分配组件更快的方法?
void neonPermuteRGBtoBGRA(unsigned char* src, unsigned char* dst, int numPix)
{
numPix /= 8; //process 8 pixels at a time
uint8x8_t alpha = vdup_n_u8 (0xff);
for (int i=0; i<numPix; i++)
{
uint8x8x3_t rgb = vld3_u8 (src);
uint8x8x4_t bgra;
bgra.val[0] = rgb.val[2]; //these lines are slow
bgra.val[1] = rgb.val[1]; //these lines are slow
bgra.val[2] = rgb.val[0]; //these lines are slow
bgra.val[3] = alpha;
vst4_u8(dst, bgra);
src += 8*3;
dst += 8*4;
}
}
ARMCC 的反汇编也不是那么快:
-
它没有使用最合适的指令
-
它将VFP指令与NEON指令混合在一起,每次都会导致巨大的打嗝
试试这个:
mov r2, r2, lsr #3
vmov.u8, d3, #0xff
loop:
vld3.8 {d0-d2}, [r0]!
subs r2, r2, #1
vswp d0, d2
vst4.8 {d0-d3}, [r1]!
bgt loop
bx lr
我建议的代码也没有完全优化,但进一步的"真正"优化会严重损害可读性。所以我到此为止。
这取决于编译器。例如,当我使用 armcc (5.01) 编译上面的代码并反汇编它时,我得到的东西看起来像(我只是把循环放在循环之外,我将 alpha 赋值移到循环之外)
18: f420440d vld3.8 {d4-d6}, [r0]!
1c: e2822001 add r2, r2, #1 ; 0x1
20: eeb01b45 fcpyd d1, d5
24: eeb00b46 fcpyd d0, d6
28: eeb02b44 fcpyd d2, d4
2c: f401000d vst4.8 {d0-d3}, [r1]!
30: e1520003 cmp r2, r3
34: bafffff7 blt 18 <neonPermuteRGBtoBGRA_armcc+0x18>
如果我使用 gcc (4.4.3) 编译代码并再次反汇编,我得到,
40: f967 040f vld3.8 {d16-d18}, [r7]
44: 46d6 mov lr, sl
46: ecca 0b06 vstmia sl, {d16-d18}
4a: 9d02 ldr r5, [sp, #8]
4c: ed8d 8b1a vstr d8, [sp, #104]
50: 3718 adds r7, #24
52: e8be 000f ldmia.w lr!, {r0, r1, r2, r3}
56: f108 0801 add.w r8, r8, #1 ; 0x1
5a: c50f stmia r5!, {r0, r1, r2, r3}
5c: eddd 0b24 vldr d16, [sp, #144]
60: e89e 0003 ldmia.w lr, {r0, r1}
64: edcd 0b16 vstr d16, [sp, #88]
68: eddd 0b22 vldr d16, [sp, #136]
6c: edcd 0b18 vstr d16, [sp, #96]
70: e885 0003 stmia.w r5, {r0, r1}
74: ed9d 0b26 vldr d0, [sp, #152]
78: 9d03 ldr r5, [sp, #12]
7a: ed8d 0b14 vstr d0, [sp, #80]
7e: cd0f ldmia r5!, {r0, r1, r2, r3}
80: 46ae mov lr, r5
82: 465d mov r5, fp
84: c50f stmia r5!, {r0, r1, r2, r3}
86: e89e 000f ldmia.w lr, {r0, r1, r2, r3}
8a: e885 000f stmia.w r5, {r0, r1, r2, r3}
8e: 9501 str r5, [sp, #4]
90: 465d mov r5, fp
92: 2100 movs r1, #0
94: 2220 movs r2, #32
96: 4620 mov r0, r4
98: f7ff fffe bl 0 <memset>
9c: cd0f ldmia r5!, {r0, r1, r2, r3}
9e: 4625 mov r5, r4
a0: c50f stmia r5!, {r0, r1, r2, r3}
a2: f8dd c004 ldr.w ip, [sp, #4]
a6: e89c 000f ldmia.w ip, {r0, r1, r2, r3}
aa: e885 000f stmia.w r5, {r0, r1, r2, r3}
ae: ecd4 0b08 vldmia r4, {d16-d19}
b2: f946 000f vst4.8 {d16-d19}, [r6]
b6: 3620 adds r6, #32
b8: 45c8 cmp r8, r9
ba: dbc1 blt.n 40 <memset+0x40>
使用 armcc 的执行时间快了 10 倍。
如果我使用 gcc(内联汇编)编译 armcc 生成的函数汇编代码(看起来现在 alpha 又回到了循环 :))
void neonPermuteRGBtoBGRA_gas(unsigned char* src, unsigned char* dst,
int numPix) {
asm(
" ASR r3,r2,#31n"
" VMOV.I8 d1,#0xffn"
" ADD r2,r2,r3,LSR #29n"
" ASR r3,r2,#3n"
" MOV r2,#0n"
" CMP r3,#0n"
" BLE endn"
"loop:n"
" VLD3.8 {d4,d5,d6},[r0]!n"
" ADD r2,r2,#1n"
" CMP r3,r2n"
" VMOV.F64 d3,d5n"
" VMOV.F64 d2,d6n"
" VMOV.F64 d5,d1n"
" VMOV.F64 d0,d4n"
" VST4.8 {d2,d3,d4,d5},[r1]!n"
" BGT loopn"
"end:n"
);
}
我也得到了与 gcc 相同的执行时间。
最后,我建议你要么反汇编你的二进制文件,然后检查编译器是否产生你想要的东西,要么使用汇编。
顺便说一句,如果你想进一步提高这个函数的执行时间,我建议你看看
- 手臂的PLD(预加载数据)指令
- 利用循环中所有可能的霓虹灯指令,例如循环展开(您会注意到实际带宽将是内存中的数据加载时间)