0
在将大型密集矩阵与其转置相乘时使用cuBlas是否有效?具体来说,是否有任何函数利用了由此产生的矩阵是对称的事实,因此将乘法的数量减少了〜2倍。使用cuBlas高效地将矩阵与转置相乘
在将大型密集矩阵与其转置相乘时使用cuBlas是否有效?具体来说,是否有任何函数利用了由此产生的矩阵是对称的事实,因此将乘法的数量减少了〜2倍。使用cuBlas高效地将矩阵与转置相乘
标准BLAS API ?syrk
是你所需要的。
C = alpha * A * A^T + beta * C
对于cuBlas,API名称是cublas<t>syrk
。请参阅cuBlas文档以获取更多细节
http://docs.nvidia.com/cuda/cublas/index.html#cublas-lt-t-gt-syrk