1
我有一些CUDA内核我想在单独的pthreads中运行。将cuda上下文传递给worker pthreads
我基本上必须让每个pthread执行,例如3个cuda内核,并且它们必须按顺序执行。
我想我会尝试传递每个pthread对流的引用,因此这3个cuda内核中的每一个都将在相同的流中按顺序执行。
我可以使用pthread的不同上下文来工作,然后它会像平常一样执行内核,但这似乎需要很多开销。
那么如何让每个pthread在同一个环境中工作,与其他pthreads同时工作呢?
感谢