内存高效的方法来使大零矩阵python

我目前正在尝试做一个非常大的矩阵，我不确定如何以内存有效的方式做到这一点。内存高效的方法来使大零矩阵python

我正在尝试使用numpy，它适用于我的小案例（2750086X300）但是，我得到了一个较大的2750086X1000，这对我来说太大了，无法运行。

我虽然关于如何使用ints，但我会添加float值，因此不确定cld如何影响它。

我试图找到一些关于做一个稀疏的零填充数组，但cldnt在这里或其他地方找到任何伟大的主题/问题/建议。

任何人有任何好建议？我目前正在使用python，所以我寻找pythonic解决方案，但我愿意尝试其他语言。

THX

编辑：

THX的建议，我已经试过scipy.sparse.csr_matrix它成功地创建一个矩阵，但深深增加了时间去通过它。

继承人样的我在做什么：

matrix = scipy.sparse.csr_matrix((df.shape[0], 300)) 
## matrix = np.zeros((df.shape[0], 

for i, q in enumerate(df['column'].values):  

    matrix[i, :] = function(q)

其中功能是相当多的该行向量运算功能。

现在，如果我在np.zeros上执行循环，那么它非常容易，大约需要10分钟。

现在，如果我尝试做与scipy稀疏矩阵相同，它需要大约50个小时。这是不合理的。

任何建议？

编辑2：

scipy.sparse.lil_matrix的伎俩

约需20 minut的环路，并使用比np.zeros

THX的存储方式少。

编辑3：

还是内存昂贵。决定不在矩阵中存储数据。一次处理1行。从中获得相关的价值/指标，将价值存储在原始df中，再次运行。

来源

2017-04-06 epattaro

'np.zeros（（2750086，1000））'很可能对您的记忆来说太大了，无论是填满了零还是实数。有一个稀疏矩阵，说只有0.1％的非零可能适合。但是你对这个数组做什么？按元素填充它将永远占用。而任何数组几乎填满内存的数学只会产生一些内存错误，因为它会创建临时缓冲区。 – hpaulj

想一想，使用32位数字至少需要'2750086 * 1000 * 1e-9 * 4 = 11.000344千兆字节。不是完全疯狂，但相当大。您可以获得更多RAM或尝试使用稀疏表示。 –

在'[scipy]稀疏'上搜索以查找有关'[scipy]'中稀疏矩阵包的问题。 'lil'，'coo'和'csr'也可以作为唯一的字符串。如果你正在学习或测试处理软件包，比如'scikit-learn'，可能会有用。 – hpaulj

尝试scipy.sparse.csr_matrix：

from scipy.sparse import * 
from scipy import * 
a=csr_matrix((2750086,1000), dtype=int8)

然后a是

<2750086x1000 sparse matrix of type '<class 'numpy.int8'>' 
    with 0 stored elements in Compressed Sparse Row format>

例如，如果你这样做：

from scipy.sparse import * 
from scipy import * 
a=csr_matrix((5,4), dtype=int8).todense() 
print(a)

你得到：

[[0 0 0 0] 
[0 0 0 0] 
[0 0 0 0] 
[0 0 0 0] 
[0 0 0 0]]

个

另一个选项是使用scipy.sparse.lil_matrix

a = scipy.sparse.lil_matrix((2750086,1000), dtype=int8)

这似乎是用于设置元素（如a[1,1]=2）更有效。

来源

2017-04-06 23:41:56

thx为伟大的答案。我更新了问题/ upvoted – epattaro

试过lil矩阵，似乎是一个很好的解决方案。谢谢。 – epattaro

内存高效的方法来使大零矩阵python

回答

相关问题