2016-10-22 81 views
1

我是pandasnumpy的新手,我试图找出做某些事情的最佳方法。我可以将矢量化函数应用于熊猫数据框吗?

现在我正试图调用dataframe的每一行上的函数。如果我将三个numpy阵列传递给此函数,它非常快,但在dataframe上使用apply的速度非常慢。

我的猜测是numpy在第一种情况下使用矢量化函数,而不是在第二种情况下。有没有办法让pandas使用该优化?基本上,在伪代码,我认为apply正在做类似for row in frame: func(row['a'], row['b'], row['c']),但我希望它做func(col['a'], col['b'], col['c'])

这是我正在尝试做的一个例子。

import numpy as np 
import pandas as pd 
from scipy.stats import beta 

count = 100000 

# If I start with a given dataframe and use apply, it's very slow 

df = pd.DataFrame(np.random.uniform(0, 1, size=(count, 3)), columns=['a', 'b', 'c']) 
df.apply(lambda frame: beta.cdf(frame['a'], frame['b'], frame['c']), axis=1) 

# However, if I split out each column into a numpy array, this is very fast. 

a = df['a'].as_matrix() 
b = df['b'].as_matrix() 
c = df['c'].as_matrix() 

beta.cdf(a, b, c) 

# But at this point I've lost the context of the dataframe. 
# I would like to keep the results in a new column for further processing 
+0

向量化将是函数特定的。那么,你是否试图向矢量化那个'beta.cdf'或者可能有其他的? – Divakar

+1

所以beta.cdf已经接受数组(和系列)为什么你使用apply而不是那个? – ayhan

+2

为什么不直接调用'beta.cdf(df.a,df.b,df.c)'? – BrenBarn

回答

4

目前尚不清楚您为什么试图使用apply。你可以做beta.cdf(df.a, df.b, df.c)

+0

再次感谢。我没有意识到我可以将'dataframe'列传递给矢量化函数。 –

+0

当然可以!回想熊猫数据框中的每一列都是熊猫系列。 – Parfait

相关问题