将q寄存器中的128位数据转换(求和)为16位数据的有效算法



我在q寄存器中有128位数据。我想对这个q寄存器中的单个16位块求和,最终得到一个16位的最终和(超过16位的任何进位都应该取并加到这个16位数字的LSB上)。

我想要实现的是:

VADD.U16(某些16位变量){q0[0]q0[1]q0[2]……q0[7]}

但是使用内部函数,

如果有人能给我一个算法,我将不胜感激。

我试着使用成对加法,但最终得到了一个相当笨拙的解决方案。。

以下是它的外观:

int converter128to16(uint16x8_t数据128){

    uint16_t data16 = 0;
    uint16x4_t ddata;
    print16(data128);
    uint32x4_t data = vpaddlq_u16(data128);
    print32(data);
    uint16x4_t data_hi = vget_high_u16(data);
    print16x4(data_hi);
    uint16x4_t data_low = vget_low_u16(data);
    print16x4(data_low);
    ddata = vpadd_u16( data_hi, data_low);
    print16x4(ddata);

}

它仍然不完整,有点笨拙。。任何帮助都将不胜感激。

您可以使用水平添加指令:

这是一个片段:

  uint16x8_t input = /* load your data128 here */
  uint64x2_t temp   = vpaddlq_u32 (vpaddlq_u16 (input)); 
  uint64x1_t result = vadd_u64 (vget_high_u64 (temp), 
                                vget_low_u64  (temp));

  // result now contains the sum of all 16 bit unsigned words
  // stored in data128. 
  // to add the values that overflow from 16 bit just do another 16 bit
  // horizontal addition and return the lowest 16 bit as the final result:
 uint16x4_t w = vpadd_u16 (
     vreinterpret_u16_u64 (result),                              
     vreinterpret_u16_u64 (result));
 uint16_t wrappedResult = vget_lane_u16 (w, 0);

如果你的目标是对16位块求和(模16位),那么下面的片段就可以了:

uin16_t convert128to16(uint16x8_t data128){
  data128 += (data128 >> 64);
  data128 += (data128 >> 32);
  data128 += (data128 >> 16);
  return data128 & 0xffff;
}

相关内容

  • 没有找到相关文章

最新更新