我有一系列使用pandas.cut分解为桶的数字。Python:如何查找系列中的项目的属性
agepreg_cuts = pd.cut(df['agepreg'],[0,20,25,30,pd.np.inf], right=False)
然后我计算它并显示计数。
agepreg_count = (df.groupby(agepreg_cuts).count())
agepreg_count
这给了我更多的信息比我想:
sest cmintvw totalwgt_lb
agepreg
[0, 20) 3182 0 1910
[20, 25) 4246 0 2962
[25, 30) 3178 0 2336
[30, inf) 2635 0 1830
现在我都想这样格式化:
INAPPLICABLE 352
0 to 20 3182
20 to 25 4246
25 to 30 3178
30 to 50 2635
Total 13593
这使我几个问题。
- 如何提取bin
[25,30)
的开始/结束属性(例如25/30)? - 如何发现系列中的属性,以便我不必问上一个问题?
仅供参考,我使用的数据来自nsfg。免费书籍thinkstats2在github上有配套代码和数据。
从'code'目录中,您可以运行以下行来加载数据框。
import nsfg
df = nsfg.ReadFemPreg()
df
你主要是要求有关访问断点两端,或约没有得到你“比[你]希望更多的信息”? – ako
断点结束 –
我假设你要求的不仅仅是btw的值,如果你将一个列表传递给'pd.cut'(你的列表有这些断点'[0,20,25,30 ,pd.np.inf]')?我想我不明白这个用例。你想要的输出似乎仍然有一个以断点作为索引的字符串。也许你只是在问如何生产这个标签? – ako