dask中根据多个条件选择行的最高性能方法是什么?在熊猫中,像基于dask中的多个条件的行选择?
df[df.A > 0 & df.B <= 10]
确实有效。然而,在dask中,这将返回一个错误。我想出了迄今为止最好的解决办法是使用numpys logical_and()
功能:
df[np.logical_and(df.A > 0, df.B <= 10)]
然而,这是超级慢,因为它会触发一些计算(我认为)。有没有更多的高性能方式来选择dask基于多个条件的行?
dask中根据多个条件选择行的最高性能方法是什么?在熊猫中,像基于dask中的多个条件的行选择?
df[df.A > 0 & df.B <= 10]
确实有效。然而,在dask中,这将返回一个错误。我想出了迄今为止最好的解决办法是使用numpys logical_and()
功能:
df[np.logical_and(df.A > 0, df.B <= 10)]
然而,这是超级慢,因为它会触发一些计算(我认为)。有没有更多的高性能方式来选择dask基于多个条件的行?
由于@joris的提示,括号在正确的位置工作。因此,在DASK溶液是类似/等同于大熊猫溶液:
df[(df.A > 0) & (df.B <= 10)]
上面也不会在熊猫工作,你需要括号:''DF [(df.A> 0)&(df.B < = 10)]' – joris