2017-03-09 64 views
1

我有一个超过1000列的巨大数据集。他们中的大多数包含* NaN's *或只是一些值。手动筛选每个色谱柱是不合理的时间浪费。我怎样才能用一个命令做一个估计列多样性,最高频率值等?熊猫:快速浏览列值

+6

'pandas.DataFrame.describe()'是大熊猫的文档的介绍性文字功能很早就:HTTP://pandas.pydata .org/pandas-docs/stable/10min.html正如计算唯一值:http://pandas.pydata.org/pandas-docs/stable/10min.html#histogramming –

+0

你是什么意思“少”值? 您是否期望离散的重复值或浮点数? – FLab

回答

0

首先,你需要获得包含哪些单列,这样就可以使一个for循环这样的:

column = [array[i] for i in range(0,len(array), STEP] 

其中STEP =列在你的文件的数量

然后,你可以做无论你想要什么。回答你的问题, 你可以使用,即max(column) - min(column),这将给你多样性。 要想使共同的价值观,我建议你看看有:

click

+0

这与dataframe.describe()相比效率很低 –