4
我试图将一些CPU代码移植到CUDA中。我的CUDA卡基于Fermi架构,因此我可以在设备中使用malloc()函数来动态分配内存,并且不需要更改很多原始代码。 (malloc()函数在我的代码中多次调用。)我的问题是这个malloc函数是否足够高效,或者我们应该避免在可能的情况下使用它。我在CUDA上运行我的代码的速度并不快,我怀疑这是由使用malloc()函数引起的。CUDA中Malloc函数的效率
如果您有任何建议或意见,请让我知道。我感谢您的帮助。
谢谢你的回答。你能指出我的文章链接吗? – xhe8
该论文所依据的论文可以在这里找到(https://www.ideals.illinois.edu/handle/2142/16137)。 – talonmies