sse

2热度

1回答

我从来没有写过SSE优化的汇编代码，所以很抱歉，如果这是一个菜鸟问题。在this aritcle解释了如何使用条件语句矢量化for。然而，我的代码（从here采取）的形式为： for (int j=-halfHeight; j<=halfHeight; ++j) { for(int i=-halfWidth; i<=halfWidth; ++i) {

1热度

1回答

功能参数XMM0

我想对齐的浮动阵列转移到XMM寄存器 #define ALIGNED16 __declspec(align(16)) ALIGNED16 float vector1[4] = { 1.0f, 2.0f, 3.0f, 4.0f }; ALIGNED16 float vector2[4] = { 1.0f, 2.0f, 3.0f, 4.0f }; ALIGNED16 float result[

0热度

2回答

在哪里添加CPU指令从源代码安装Tensorflow？

我试图从源代码安装，因为，当我与PIP和安装virtualenv中未安装CPU指令（SSE，AVX ...）警告Tensorflow： W tensorflow/core/platform/cpu_feature_guard.cc:45] The TensorFlow library wasn't compiled to use SSE4.1 instructions, but these are

1热度

1回答

SSE segfault on _mm_store_si128

当我尝试加载使用内在函数生成的某些密文时，出现段错误。我根本不明白这个错误。代码示例： unsigned char c[177]; unsigned char m[161]; auth = _mm_setzero_si128(); unsigned char M_star[BLOCKSIZE]; __m128i tag = auth; for(i=0;i<numblocks_mes;++

0热度

1回答

矩阵乘法的自动矢量化

我对SIMD相当新颖，想试试看能否让GCC为我引导一个简单的动作。所以我看着this post，想要做更多或更少的相同的事情。（但在Linux 64位GCC 5.4.0，对于KabyLake处理器）我基本上是有这个功能： /* m1 = N x M matrix, m2 = M x P matrix, m3 = N x P matrix & output */ void mmul(doub

3热度

1回答

使用sse的点生成

#define Size 50000 void main() { unsigned char *arry1 = (unsigned char*)malloc(sizeof(unsigned char)* Size); unsigned char *arry2 = (unsigned char*)malloc(sizeof(unsigned char)* Size);

8热度

4回答

是不是从SSE，AVX失踪？

这是我的想象，还是一个PNOT指令缺少SSE和AVX？也就是说，翻转矢量中每一位的指令。如果是，是否有更好的方法来模拟它，而不是PXOR与所有1的向量？很烦人，因为我需要建立一个全1的矢量来使用这种方法。

0热度

1回答

模拟AVX-512屏蔽指令

根据说明文件，从gcc 4.9开始支持AVX-512指令集，但是我有gcc 4.8。目前，我有这样的代码用于加的内存块（它的保证是小于256个字节，所以没有溢出后顾之忧）： __mm128i sum = _mm_add_epi16(sum, _mm_cvtepu8_epi16(*(__m128i *) &mem)); 现在，翻翻文件，如果我们有，比方说，四字节遗留下来的，我可以使用： __mm

0热度

1回答

SSE到霓虹灯（_mm_movelh_ps）

我将一些SSE代码移动到Neon，Im无法找到与_mm_movelh_ps等价的任何内容。我谷歌相当多找不到任何东西...我错过了什么？是否有任何霓虹灯功能可以做同样的事情，否则我将不得不在CPU上执行它（不理想）。在此先感谢！

0热度

1回答

内部函数相当于CUDA类型转换内部函数__double2loint，__double2hiint和__hiloint2double

我想弄清楚，什么是CPU等同于CUDA类型转换内部函数__double2loint，__double2hiint和__hiloint2double。我猜_mm_cvttsd_si32可能相当于__double2loint（是否正确？），但我没有找到__double2hiint和__hiloint2double的等价物。有可能在C中实现这种功能的快速版本？