1
我有一个超过1000列的巨大数据集。他们中的大多数包含* NaN's *或只是一些值。手动筛选每个色谱柱是不合理的时间浪费。我怎样才能用一个命令做一个估计列多样性,最高频率值等?熊猫:快速浏览列值
我有一个超过1000列的巨大数据集。他们中的大多数包含* NaN's *或只是一些值。手动筛选每个色谱柱是不合理的时间浪费。我怎样才能用一个命令做一个估计列多样性,最高频率值等?熊猫:快速浏览列值
首先,你需要获得包含哪些单列,这样就可以使一个for循环这样的:
column = [array[i] for i in range(0,len(array), STEP]
其中STEP =列在你的文件的数量
然后,你可以做无论你想要什么。回答你的问题, 你可以使用,即max(column) - min(column)
,这将给你多样性。 要想使共同的价值观,我建议你看看有:
这与dataframe.describe()相比效率很低 –
'pandas.DataFrame.describe()'是大熊猫的文档的介绍性文字功能很早就:HTTP://pandas.pydata .org/pandas-docs/stable/10min.html正如计算唯一值:http://pandas.pydata.org/pandas-docs/stable/10min.html#histogramming –
你是什么意思“少”值? 您是否期望离散的重复值或浮点数? – FLab