0
第一种方法(并行内环):OpenMP的并行用于构建性能
for(j=0; j<LATTICE_VW; ++j) {
x = j*DX + LATTICE_W;
#pragma omp parallel for ordered private(y, prob)
for(i=0; i<LATTICE_VH; ++i) {
y = i*DY + LATTICE_S;
prob = psi[i][j].norm();
#pragma omp ordered
out << x << " " << y << " " << prob << endl;
}
}
第二方法(并行外环):
#pragma omp parallel for ordered private(x, y, prob)
for(j=0; j<LATTICE_VW; ++j) {
x = j*DX + LATTICE_W;
for(i=0; i<LATTICE_VH; ++i) {
y = i*DY + LATTICE_S;
prob = psi[i][j].norm();
#pragma omp ordered
out << x << " " << y << " " << prob << endl;
}
}
第三方法(并行折叠环路)
#pragma omp parallel for collapse(2) ordered private(x, y, prob)
for(j=0; j<LATTICE_VW; ++j) {
for(i=0; i<LATTICE_VH; ++i) {
x = j*DX + LATTICE_W;
y = i*DY + LATTICE_S;
prob = psi[i][j].norm();
#pragma omp ordered
out << x << " " << y << " " << prob << endl;
}
}
如果我要猜测我会说方法3应该是最快的。
然而,方法1是最快的,而第二和第三方都需要大约相同的时间量,就好像没有并行化一样。为什么发生这种情况?
您是否从方法2获得了正确的输出?变量'y'和'prob'也应该是私人的。 – Novelocrat
对不起,他们在那里是私人的。刚刚编辑它 – lexsintra
内外环的行程数是多少? –