确保GROUPBY输出型

考虑这个例子：确保GROUPBY输出型

import pandas as pd 
import numpy as np 
foo = pd.DataFrame(dict(letter=['a', 'a', 'a', 'b', 'b', 'b', 'a', 'b'], 
       number=[1,1,2,2,3,np.nan, np.nan,4])) 
grouped = foo.groupby(foo.number) 
print grouped['letter'].transform(lambda x: sum(x=='a')) 

Out[18]: 
0 2 
1 2 
2 1 
3 1 
4 0 
5 b 
6 a 
7 0

而不是显示行数5和6，'a'，和'b'1的被示出，这大概是因为GROUPBY被索引上的np.nan值。有没有办法阻止这种情况的发生，而不用用一些虚拟变量代替nan值？另外 - 为什么会发生？

来源

2015-12-02 Hillary Sanders

不幸的是，它看起来像按nan分组的组看起来是不包含的（参见'print grouped.groups'）。也看到这个问题：https://stackoverflow.com/questions/18429491/groupby-columns-with-nan-missing-values – wflynny

大熊猫文档这在这里解释：http://pandas.pydata.org/pandas-docs/stable/missing_data.html

楠的被排除在外，这是与R.

一致

早些时候熊猫的版本确实包括他们，但他们至今已删除。

来源

2015-12-02 22:59:52 toasteez

谢谢。所以，不可能没有虚拟变量。 –

不可能*没有虚拟变量 –

确保GROUPBY输出型

回答

相关问题