2017-04-06 166 views
0

我目前正在尝试做一个非常大的矩阵,我不确定如何以内存有效的方式做到这一点。内存高效的方法来使大零矩阵python

我正在尝试使用numpy,它适用于我的小案例(2750086X300) 但是,我得到了一个较大的2750086X1000,这对我来说太大了,无法运行。

我虽然关于如何使用ints,但我会添加float值,因此不确定cld如何影响它。

我试图找到一些关于做一个稀疏的零填充数组,但cldnt在这里或其他地方找到任何伟大的主题/问题/建议。

任何人有任何好建议?我目前正在使用python,所以我寻找pythonic解决方案,但我愿意尝试其他语言。

THX


编辑:

THX的建议,我已经试过scipy.sparse.csr_matrix它成功地创建一个矩阵,但深深增加了时间去通过它。

继承人样的我在做什么:

matrix = scipy.sparse.csr_matrix((df.shape[0], 300)) 
## matrix = np.zeros((df.shape[0], 

for i, q in enumerate(df['column'].values):  

    matrix[i, :] = function(q) 

其中功能是相当多的该行向量运算功能。

现在,如果我在np.zeros上执行循环,那么它非常容易,大约需要10分钟。

现在,如果我尝试做与scipy稀疏矩阵相同,它需要大约50个小时。这是不合理的。

任何建议?


编辑2:

scipy.sparse.lil_matrix的伎俩

约需20 minut的环路,并使用比np.zeros

THX的存储方式少。


编辑3:

还是内存昂贵。决定不在矩阵中存储数据。一次处理1行。从中获得相关的价值/指标,将价值存储在原始df中,再次运行。

+0

'np.zeros((2750086,1000))'很可能对您的记忆来说太大了,无论是填满了零还是实数。有一个稀疏矩阵,说只有0.1%的非零可能适合。但是你对这个数组做什么?按元素填充它将永远占用。而任何数组几乎填满内存的数学只会产生一些内存错误,因为它会创建临时缓冲区。 – hpaulj

+0

想一想,使用32位数字至少需要'2750086 * 1000 * 1e-9 * 4 = 11.000344千兆字节。不是完全疯狂,但相当大。您可以获得更多RAM或尝试使用稀疏表示。 –

+0

在'[scipy]稀疏'上搜索以查找有关'[scipy]'中稀疏矩阵包的问题。 'lil','coo'和'csr'也可以作为唯一的字符串。如果你正在学习或测试处理软件包,比如'scikit-learn',可能会有用。 – hpaulj

回答

4

尝试scipy.sparse.csr_matrix

from scipy.sparse import * 
from scipy import * 
a=csr_matrix((2750086,1000), dtype=int8) 

然后a

<2750086x1000 sparse matrix of type '<class 'numpy.int8'>' 
    with 0 stored elements in Compressed Sparse Row format> 

例如,如果你这样做:

from scipy.sparse import * 
from scipy import * 
a=csr_matrix((5,4), dtype=int8).todense() 
print(a) 

你得到:

[[0 0 0 0] 
[0 0 0 0] 
[0 0 0 0] 
[0 0 0 0] 
[0 0 0 0]] 

另一个选项是使用scipy.sparse.lil_matrix

a = scipy.sparse.lil_matrix((2750086,1000), dtype=int8) 

这似乎是用于设置元素(如a[1,1]=2)更有效。

+0

thx为伟大的答案。我更新了问题/ upvoted – epattaro

+0

试过lil矩阵,似乎是一个很好的解决方案。谢谢。 – epattaro