0
我有一个scipy sparse CSR
矩阵的大小2M x 50k与200M非零值(100每行)。我需要通过一个(随机分布的)索引(它是一个熊猫Series
)对它的120k行进行切片,然后将该子矩阵乘以大小为1x50k的稀疏向量(也有100个非零值)。SciPy稀疏CSR矩阵的快速切片和乘法
我这样做:
slice = matrix[index.tolist(), :]
result = slice.dot(vector.T).T.toarray()[0] # returns 1x120k array
纵切需要0.7s
(慢),然后乘采取0.05s
。
相反,我可以先乘以整个矩阵,然后切片结果:
result = matrix.dot(vector.T).T.toarray()[0]
result_sliced = result[index.tolist()] # returns 1x120k array
在这种情况下,乘法需要0.65s
然后切片需要0.015s
。
问题:
为什么是行的CSR矩阵的切片这么慢?即使整个矩阵的乘法所花费的时间也比它少。
有没有办法来实现最终的结果更快?
有没有办法实现最终结果更快? –