dtype如何影响Numpy中的行和列操作速度？

我想了解如何最好地利用numpy数组的C顺序来编写高性能代码。我的期望是，遍历行的操作应该比遍历列的操作更快。事实上，这是真的，因为我尝试的第一个例子：dtype如何影响Numpy中的行和列操作速度？

X = np.ones((10000,10000),dtype='int64') 
print(X.dtype) 
print(X.flags) 

%timeit np.sum(X,axis=0) 

%timeit np.sum(X,axis=1)

这将产生输出：

int64 
    C_CONTIGUOUS : True 
    F_CONTIGUOUS : False 
    OWNDATA : True 
    WRITEABLE : True 
    ALIGNED : True 
    UPDATEIFCOPY : False 
10 loops, best of 3: 79.6 ms per loop 
10 loops, best of 3: 61.1 ms per loop

这是我所期待的，因为沿行总结应该比沿着列求和更快。

这里是我非常困惑的地方。如果我改变了D型到float64，则列操作变得几乎快两倍行操作：

X = np.ones((10000,10000),dtype='float') 
print(X.dtype) 
print(X.flags) 

%timeit np.sum(X,axis=0) 

%timeit np.sum(X,axis=1)

生成输出：

float64 
    C_CONTIGUOUS : True 
    F_CONTIGUOUS : False 
    OWNDATA : True 
    WRITEABLE : True 
    ALIGNED : True 
    UPDATEIFCOPY : False 
10 loops, best of 3: 67.7 ms per loop 
10 loops, best of 3: 123 ms per loop

是否有人可以解释，为什么发生这种情况？

编辑：在评论中建议我再试一次较小的矩阵（1000,1000）。当我运行：

import time 
import numpy as np 

X = np.ones((1000,1000),dtype='float') 
print(X.dtype) 
print(X.flags) 

%timeit np.sum(X,axis=0) 
%timeit np.sum(X,axis=1) 

X = np.ones((1000,1000),dtype='int64') 
print(X.dtype) 
print(X.flags) 

%timeit np.sum(X,axis=0) 
%timeit np.sum(X,axis=1)

我得到的输出：

float64 
    C_CONTIGUOUS : True 
    F_CONTIGUOUS : False 
    OWNDATA : True 
    WRITEABLE : True 
    ALIGNED : True 
    UPDATEIFCOPY : False 
1000 loops, best of 3: 598 µs per loop 
1000 loops, best of 3: 1.06 ms per loop 
int64 
    C_CONTIGUOUS : True 
    F_CONTIGUOUS : False 
    OWNDATA : True 
    WRITEABLE : True 
    ALIGNED : True 
    UPDATEIFCOPY : False 
1000 loops, best of 3: 788 µs per loop 
1000 loops, best of 3: 632 µs per loop

所以效果持久。

来源

2017-08-16 jmracek

你有什么'numpy'和'python'版本？ –

@DanielF Python 3.6，Numpy 1.11.3。 – jmracek

尝试减小'X'的大小（即'（1000,1000）'），并查看在某个时间点的时间差是否从〜200％跳到〜110％。你可能会缓存。 –

我无法证实你在OSX（不同的Python版本）第二个结果 - 这类似于你的第一个结果：

In [27]: X = np.ones((10000,10000),dtype='float64') 
    ...: print(X.dtype) 
    ...: print(X.flags) 
    ...: 
    ...: %timeit np.sum(X,axis=0) 
    ...: 
    ...: %timeit np.sum(X,axis=1) 
    ...: 
float64 
    C_CONTIGUOUS : True 
    F_CONTIGUOUS : False 
    OWNDATA : True 
    WRITEABLE : True 
    ALIGNED : True 
    UPDATEIFCOPY : False 
10 loops, best of 3: 67.6 ms per loop 
10 loops, best of 3: 62 ms per loop

编辑：我多次直接timeit.repeat()您所有的计算：

import timeit 
t = timeit.repeat('np.sum(X,axis=0)', setup="import numpy as np; X = np.ones((10000,10000),dtype='float64')", repeat=50, number=1); print(min(t)); 
t = timeit.repeat('np.sum(X,axis=1)', setup="import numpy as np; X = np.ones((10000,10000),dtype='float64')", repeat=50, number=1); print(min(t)); 
t = timeit.repeat('np.sum(X,axis=0)', setup="import numpy as np; X = np.ones((10000,10000),dtype='int64')", repeat=50, number=1); print(min(t)); 
t = timeit.repeat('np.sum(X,axis=1)', setup="import numpy as np; X = np.ones((10000,10000),dtype='int64')", repeat=50, number=1); print(min(t));

with these timing：

Python 2.7.13 |Continuum Analytics, Inc.| (default, Dec 20 2016, 23:05:08) 
IPython 5.3.0 -- An enhanced Interactive Python. 
numpy 1.12.1 

0.0637669563293 # float64, axis=0 
0.0558688640594 # float64, axis=1 
0.0669782161713 # int64, axis=0 
0.0576930046082 # int64, axis=1

and

Python 3.6.2 |Continuum Analytics, Inc.| (default, Jul 20 2017, 13:14:59) 
IPython 6.1.0 -- An enhanced Interactive Python. Type '?' for help. 
numpy 1.13.1 

0.06289491400821134 
0.05558946297969669 
0.0670205659698695 
0.057950171001721174

和

Python 3.5.3 |Continuum Analytics, Inc.| (default, Mar 6 2017, 12:15:08) 
IPython 5.3.0 -- An enhanced Interactive Python. 
numpy 1.11.3 

0.06345970398979262 
0.05561513203429058 
0.07043616304872558 
0.057934076990932226

最后，我的Android手机上：

Python 3.6.2 (default, Jul 19 2017, 11:01:41) 
IPython 6.1.0 
numpy 1.12.0 

0.39130385394673795 
0.24979593697935343 
0.42852322908584028 
0.28863119706511497

和Windows系统（蟒蛇3.4 32位）：

0.158213707338 
0.149441164907 
0.365552662475 
0.128456460354

来源

2017-08-16 05:13:26

嗯......好的，我必须在另一台电脑上运行这段代码。这很奇怪，因为我能够在我的机器上重现这个结果。 – jmracek

我在我的机器@jmracek上复制了它。也许是版本或硬件差异。你运行AGN的版本是'numpy'和'python'吗？ –

我在Microsoft Surface Pro 3上运行python 3.6和numpy 1.11.3。 – jmracek

dtype如何影响Numpy中的行和列操作速度？

回答

相关问题