这个问题是关系到使用CUDA流运行多个内核如何减少CUDA同步延迟/延缓
在CUDA有许多同步命令 cudaStreamSynchronize, CudaDeviceSynchronize, 的cudaThreadSynchronize, 还的cudaStreamQuery检查流是空的。
我注意到当使用探查器时,这些同步命令给程序带来了很大的延迟。我想知道是否有人知道减少这种延迟的方法,当然除了尽可能少地使用同步命令外。
也有任何数字来判断最有效的同步方法。那就是考虑在应用程序中使用3个流,并且其中两个需要为我完成以启动第四个流,如果我使用2个cudaStreamSyncs或者只有一个cudaDeviceSync,会导致更少的损失?
cudaThreadSynchronize已弃用。 – 2012-08-15 03:27:28