0
我有一种特殊的问题。batchedgemm源代码?
我有一些研究代码,我使用CUDA 4.1在我的Macbook上开发的,尤其是使用batchedgemm
。我现在必须在我从另一个机构借出的一群gpu上运行它。
我的问题是,群集只安装了CUDA 4.0,并且他们不愿意升级得很快。
有谁知道我是否可以在某处获得batchedgemm的源代码并将其编译为4.0以下的版本?
我已经写过自己的内核来完成批量的乘法运算,但是它的执行速度比图书馆的要慢10左右 - 我想站在伟人的肩膀上,而不是脚趾上。