sse

1热度

1回答

正在转换，然后按位或将唯一的方法从两个__m128d转换为单个__m128i？这是完全可以接受的在在x64，Xcode的建立 m128d v2dHi = .... m128d v2dLo = .... __m128i v4i = _mm_set_epi64(_mm_cvtpd_pi32(v2dHi), _mm_cvtpd_pi32(v2dLo)) 和拆卸显示所使用_mm_cvtpd_pi

2热度

1回答

gcc中的数组vs指针自动矢量化

我试图用g ++ 5.4（-ftree-vectorize）使用自动矢量化。我注意到下面的代码中的数组版本导致编译器错过了内部循环中的向量化机会，导致与指针版本相比显着的性能差异。在这种情况下有什么可以帮助编译器吗？ void floydwarshall(float* mat, size_t n) { #if USE_POINTER for (int k = 0; k < n; ++k

2热度

1回答

如何将（最多）16个单字节移动到XMM寄存器中？

我有一个归零的128位寄存器，我想向左移位并添加一个字节。我可以把它与： pslldq xmm0, 1 ......但现在我想复制到空的空间。例如： or xmm0, al 哪个当然不起作用。我只想要最低8位受影响。这将在一个循环中，将使用al的连续值来填充寄存器。所以我需要某种mov指令或其他选择。理想的是一个单一的指令左移8位并插入，但我不认为这样的存在。我花了很多时间在x86-6

0热度

3回答

SSE并行化

嗨我想改善这段代码的性能，因为我有一台能够处理4个线程的机器。我首先想到了使omp并行，但后来我看到这个函数在for循环中，所以多次创建线程效率不高。所以，我想知道如何使用SSE实现它，这将是更有效的： unsigned char cubicInterpolate_paralelo(unsigned char p[4], unsigned char x) { unsigned char

0热度

1回答

SSE 4内存负载优化

当使用SSE指令/内在函数（比如256位寄存器）时，任何人都可以通过使用下一个32字节块上的预取指令来减少从内存加载扩展寄存器所花的时间，或通过其他技术？假设要加载的数据已经在内存中正确对齐。

3热度

1回答

使用可变范围时，循环未被矢量化

版本代码未矢量化，而版本B代码已矢量化。如何使版本A向量化并保持变量范围（不使用文字范围）？嵌套循环是用于乘法与广播，如在Python和MATLAB的numpy库。 numpy图书馆的广播描述是here。版A码（没有的std ::向量。无向量化。）此只使用imull (%rsi), %edx在.L169，这不是一个SIMD指令。 gcc godbolt #include <iostream

1热度

2回答

在C++中总结两个数组与SSE2 SIMD正确的方法

让我们开始通过包括以下内容： #include <vector> #include <random> using namespace std; 现在，假设一个具有以下三个std:vector<float>： N = 1048576; vector<float> a(N); vector<float> b(N); vector<float> c(N); default_random

1热度

2回答

将向量载入SSE寄存器

我想载入一个向量到SSE寄存器，我的代码编译没有错误，但是当我尝试运行它时，我有分段错误。这是我的代码： inline int SSEJaccard::calcSSEJaccardDist(unsigned int id1, unsigned int id2) { int result; __m128i v, v1; std::vector<uint32_t> &fv

1热度

1回答

如何在C/Objective C中使用SSE指令集？

我正在试着做一个函数，总结2 CGVectors。这是我的尝试：包括： @import GLKit; @import Foundations; // Defenition of CGVector struct CGVector { CGFloat dx; CGFloat dy; }; typedef struct CGVe

0热度

1回答

Intel Intrinsics组件命令误解

刚开始使用内在函数，并触及某些暴露了我的无知的内容。下面是我所看到的人造版本（VS2015）： __m128i test; //test.m128i_u16[0] = 127; //test.m128i_u16[1] = 128; //test.m128i_u16[2] = 129; //test.m128i_u16[3] = 130; //test.m128i_u16[4] = 13