我有一个基于不同的气象站的数据集,Python的大熊猫 - 删除基于NaN的组数阈值
stationID | Time | Temperature | ...
----------+------+-------------+-------
123 | 1 | 30 |
123 | 2 | 31 |
202 | 1 | 24 |
202 | 2 | 24.3 |
202 | 3 | NaN |
...
而且我想删除“的stationID团体,其中有超过一定数量的NaN更多。举例来说,如果I型:
**>>> df.groupby('stationID')**
然后,我想放弃基团具有(至少)一定数量的NaN(比方说30)在组内。据我了解,我不能GROUPBY使用dropna(THRESH = 10):
**>>> df2.groupby('station').dropna(thresh=30)**
*AttributeError: Cannot access callable attribute 'dropna' of 'DataFrameGroupBy' objects...*
那么,什么是做与大熊猫的最佳方式是什么?
谢谢你的回复!除温度外我还有其他变量。因此,使用你的代码,我将如何考虑NaN的集体总和(即:我想删除一个组,其中变量1,变量2,变量3,...中的NaN的总和小于阈值) – mmeclimate
@mmeclimate,它的答案不正确/不适合改变问题。你应该问另一个问题,并提供增加的细节。 – Merlin
明白了。我会去做。 – mmeclimate