我试图限制由描述输出返回的输出到只有那些计数大于或等于任何给定数量的记录的子集。熊猫:过滤描述输出(计数)
我的数据帧是一个较大的一个子集,并且被定义为:
df = evaluations[['score','garden_id']]
当运行描述此,
df.groupby('garden_id').describe()
我想过滤返回的数据的那些记录数>指定的数字。
我的输出看起来像:
Out[39]:
score
garden_id
37254 count 6
mean 20
std 0
min 20
25% 20
50% 20
75% 20
max 20
37273 count 1
mean 17
std NaN
min 17
25% 17
50% 17
75% 17
max 17
37284 count 1
mean 19
std NaN
min 19
25% 19
50% 19
75% 19
max 19
37288 count 1
mean 11
std NaN
min 11
25% 11
50% 11
...
我要去尝试修改类似:modify-output-from-python-pandas-describe,但我只得到这样的:
Out[40]:
Empty DataFrame
Columns: [score]
Index: []
当我运行df.groupby('garden_id').describe().loc[['count']]
我做尝试newframe = df.groupby('garden_id').describe().count() > 3
,但我得到一个掩码显示哪些记录是真实的,哪些是错误的,所以不太确定如何使用它。
有没有一种方法可以直接使用describe
方法过滤掉所需的记录,而无需处理数据屏蔽等?
@ horcle什么是ou你在追求什么? – Merlin
@jezrael显然明白我想要什么:我想为描述输出中的计数设置一个阈值,然后找出哪个garden_ids符合这个标准。 –
。@ horcle。您不限制.describe()的输出。输出是相同的。 – Merlin