1
我用熊猫(Python 2.7版),使用到评估调查(部分)下面的代码:创建/重命名分类与熊猫
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
首先阅读该.csv
df = pd.read_csv("data_project_638595_2017_05_23.csv", sep=';',usecols=range(6,82) + range(92,112))
重命名列(这是一个例子):
df.rename(columns={"v_27" : "age"}, inplace=True)
集的数据类型对于所有实施例(这是一个例子):
df["age"] = df["age"].astype("category")
年龄也被要求在参与调查的cateogries参与者。因此,年龄看起来现在这个样子,其中2.0 =“20-29岁”:
df.age
age
...
333 2.0
336 2.0
338 2.0
Name: age, dtype: category
Categories (5, float64): [1.0, 2.0, 3.0, 4.0, 5.0]
,其计这样的:
df.age.value_counts()
2.0 178
3.0 29
5.0 3
4.0 2
1.0 2
Name: age, dtype: int64
我现在想要做的是建立和重命名以下类别(这也意味着,提出“60 +”具有0计数和分类也应订购):
['0-19', '20-29', '30-39', '40-49', '50-59', '60+']
我试过几种方法(如rename_categories),但我只是无法得到它应该像它应该那样工作。
什么是可行的解决方案?提前致谢!
我刚刚意识到我的介绍可能是一个有点混乱。这将工作,如果我将年龄作为一个整数。其实年龄已经在熊猫式的规范中。我编辑了我的问题。 – cian
@cian,我已更新我的文章 - 请检查 – MaxU
真棒,工作完美!谢谢! – cian