4
我正在编写一个cuda程序,我试图减少数据传输的开销。我使用cuBLAS库进行矩阵乘法运算,我必须发送30.000.000个数字,其值在0-255之间。在CUDA和cuBLAS中类型转换
现在我正在将它们发送为浮点数,因为我希望我的最终产品是一个浮点数,考虑到它们可以放入一个字节中,所以最终成本很高。
有没有办法将它们作为字节发送并在使用cuBLAS库或任何其他快速数学库时将它们转换为浮点数?或者告诉GPU以某种方式将它们对齐成浮动状态?