2012-10-23 46 views
2

我使用SIMD加载指令从存储器加载元素,让说使用AltiVec技术,假设对齐地址:避免与SIMD指令无效的内存负载

float X[SIZE]; 
vector float V0; 
unsigned FLOAT_VEC_SIZE = sizeof(vector float); 
for (int load_index =0; load_index < SIZE; load_index+=FLOAT_VEC_SIZE) 
{ 
    V0 = vec_ld(load_index, X); 
    /* some computation involving V0*/ 
} 

现在,如果大小不是FLOAT_VEC_SIZE的倍数,可以V0在最后一次循环迭代中包含一些无效的内存元素。避免的方法之一是通过一个迭代,以减少环路,另一个是屏蔽掉的潜在无效元素,有没有其他有用的技巧吗?考虑到上面是一组嵌套循环中的最内层。因此,任何额外的非SIMD指令都会带来性能损失!

回答

2

理想情况下,您应该将您的阵列填充到vec_step(vector float)(即4个元素的倍数)的倍数,然后屏蔽掉SIMD处理中的任何其他不需要的值或使用标量代码来处理最后几个元素。

const INT VF_ELEMS = vec_step(vector float); 
const int VEC_SIZE = (SIZE + VF_ELEMS - 1)/VF_ELEMS; // number of vectors in X, rounded up 
vector float VX[VEC_SIZE]; // padded array with 16 byte alignment 
float *X = = (float *)VX; // float * pointer to base of array 

for (int i = 0; i <= SIZE - VF_ELEMS; i += VF_ELEMS) 
{       // for each full SIMD vector 
    V0 = vec_ld(0, &X[i]); 
    /* some computation involving V0 */ 
} 
if (i < SIZE)    // if we have a partial vector at the end 
{ 
#if 1      // either use SIMD and mask out the unwanted values 
    V0 = vec_ld(0, &X[i]); 
    /* some SIMD computation involving partial V0 */ 
#else      // or use a scalar loop for the remaining 1..3 elements 
    /* small scalar loop to handle remaining points */ 
#endif 
} 
+0

感谢您的留言,但我不认为对齐是这里的一个问题。我们说,有在X 7组的元素,所以vec_ld(0,X)将带来前四“漂浮”,而vec_ld(4,X)将返回3个有效元素,同时还有第四难保,不是吗? – fsheikh

+0

对不起 - 我错过了有关SIZE不是FLOAT_VEC_SIZE倍数的部分 - 我马上更新我的答案。 –

0

有时零填充不是一个选项,因为在常量数组的情况下。另一方面,添加标量代码可能会导致向量和标量结果的混合,例如,在写回计算结果时;掩盖不需要的值看起来是更好的解决方案。请注意,这假定地址为16字节对齐。 玩具的例子,清除SIMD矢量的最后三个元素

vector bool int V_MASK = (vector bool int) {0,0,0,0}; 
unsigned int all_ones = 0xFFFFFFFFFFFFFFFF; 
unsigned int * ptr_mask = (unsigned int *) &V_MASK; 
ptr_mask[0]= all_ones; 
vector float XV = vec_ld(0,some_float_ptr); 
XV = vec_and(XV,V_MASK);