我在CPU上使用C++和使用CUDA的GPU上实现了相同的算法。在这个算法中,我必须用数字来求解积分,因为它没有分析答案。我必须整合的函数是一个奇怪的曲线多项式,最后还有一个exp函数。Cuda数学与C++数学
在C++
for(int l = 0; l < 200; l++)
{
integral = integral + (a0*(1/(r_int*r_int)) + a1*(1/r_int) + a2 + a3*r_int + a4*r_int*r_int + a5*r_int*r_int*r_int)*exp(-a6*r_int)*step;
r_int = r_int + step;
}
在CUDA
for(int l = 0; l < 200; l++)
{
integral = integral + (a0*(1/(r_int*r_int)) + a1*(1/r_int) + a2 + a3*r_int + a4*r_int*r_int + a5*r_int*r_int*r_int)*__expf(-a6*r_int)*step;
r_int = r_int + step;
}
输出:
CPU:dose_output = 0.00165546
GPU:dose_output = 0.00142779
我认为,math.h的函数exp
和CUDA的函数__expf
不是计算同样的事情。我试图删除--use_fast_math编译器标志,认为它是原因,但似乎这两个实现差异大约20%。
我正在使用CUDA来加速医学物理算法,这些差异并不是很好,因为我必须证明其中一个输出比另一个更“真实”,对患者来说显然可能是灾难性的。
区别来自函数本身吗?否则,我认为它可能来自于因素的备忘录或我获取它们的方式。
编辑: “完整的” 代码
float a0 = 5.9991e-04;
float a1 = -1.4694e-02;
float a2 = 1.1588;
float a3 = 4.5675e-01;
float a4 = -3.8617e-03;
float a5 = 3.2066e-03;
float a6 = 4.7050e-01;
float integral = 0.0;
float r_int = 5.0;
float step = 0.1/200;
for(int l = 0; l < 200; l++)
{
integral = integral + (a0*(1/(r_int*r_int)) + a1*(1/r_int) + a2 + a3*r_int + a4*r_int*r_int + a5*r_int*r_int*r_int)*exp(-a6*r_int)*step;
r_int = r_int + step;
}
cout << "Integral=" << integral << endl;
我建议在GPU和CPU上运行此部分两者。 来自Carleton's seed database的值
评论是不适用于扩展讨论;这个对话已经[转移到聊天](http://chat.stackoverflow.com/rooms/130831/discussion-on-question-by-feynstein-cuda-math-vs-c-math)。 –