熊猫：快速浏览列值

我有一个超过1000列的巨大数据集。他们中的大多数包含* NaN's *或只是一些值。手动筛选每个色谱柱是不合理的时间浪费。我怎样才能用一个命令做一个估计列多样性，最高频率值等？熊猫：快速浏览列值

2017-03-09 Denis Kulagin

'pandas.DataFrame.describe（）'是大熊猫的文档的介绍性文字功能很早就：HTTP：//pandas.pydata .org/pandas-docs/stable/10min.html正如计算唯一值：http://pandas.pydata.org/pandas-docs/stable/10min.html#histogramming –

你是什么意思“少”值？您是否期望离散的重复值或浮点数？ – FLab

首先，你需要获得包含哪些单列，这样就可以使一个for循环这样的：

column = [array[i] for i in range(0,len(array), STEP]

其中STEP =列在你的文件的数量

然后，你可以做无论你想要什么。回答你的问题，你可以使用，即max(column) - min(column)，这将给你多样性。要想使共同的价值观，我建议你看看有：

click

来源

2017-03-09 18:01:19 user3622836

这与dataframe.describe（）相比效率很低 –

熊猫：快速浏览列值

回答

相关问题