0
对于生成的实际程序集检查的不足之处,有没有什么方法可以确定OpenMP对特定用例将使用哪些特定于平台的指令?例如,我已经确定pcmpeqq
,即64位整数字相等(SSE 4.1)作为所需的指令而不是pcmpeqd
,即32位字相等(SSE 2)。有什么方法可以知道OpenMP 4.0会生成前者而不是后者? (spec没有解决这些细节问题。)了解OpenMP 4.0将生成哪些SIMD指令?
对于生成的实际程序集检查的不足之处,有没有什么方法可以确定OpenMP对特定用例将使用哪些特定于平台的指令?例如,我已经确定pcmpeqq
,即64位整数字相等(SSE 4.1)作为所需的指令而不是pcmpeqd
,即32位字相等(SSE 2)。有什么方法可以知道OpenMP 4.0会生成前者而不是后者? (spec没有解决这些细节问题。)了解OpenMP 4.0将生成哪些SIMD指令?
保证任何编译器永远发出特定汇编指令的唯一方法是硬编码它。世界上没有规范限制编译器为给定语言特性生成特定指令。尽管如此,如果在命令行上隐式地或显式地指定了对SSE4.1或更高版本的支持,那么如果许多编译器在稍后的指令可以工作的情况下发出SSE2指令,将会非常惊讶。
检查装配并非难事:
$ cat foo.c
#include <stdio.h>
int main(int argc, char **argv) {
const int n=128;
long x[n];
long y[n];
for (int i=0; i<n/2; i++) {
x[i] = y[i] = 1;
x[i+n/2] = 2;
y[i+n/2] = 2;
}
#pragma omp simd
for (int i=0; i<n; i++)
x[i] = (x[i] == y[i]);
for (int i=0; i<n; i++)
printf("%d: %ld\n", i, x[i]);
return 0;
}
$ icc -openmp -msse4.1 -o foo41.s foo.c -S -std=c99 -qopt-report-phase=vec -qopt-report=2
icc: remark #10397: optimization reports are generated in *.optrpt files in the output location
$ icc -openmp -msse2 -o foo2.s foo.c -S -std=c99 -qopt-report-phase=vec -qopt-report=2 -o foo2.s
icc: remark #10397: optimization reports are generated in *.optrpt files in the output location
千真万确:
$ grep pcmp foo41.s
pcmpeqq (%rax,%rsi,8), %xmm0 #18.25
$ grep pcmp foo2.s
pcmpeqd (%rax,%rsi,8), %xmm2 #18.25