我正在寻找Pandas .corr()方法的帮助。熊猫列列表之间的相关性X整个数据框
由于是,我可以使用.corr()方法来计算列的每一个可能的组合的热图:
corr = data.corr()
sns.heatmap(corr)
其中,在我的23000列的数据帧,可热死近终止宇宙。
我还可以做值的子集之间的比较合理的相关性
data2 = data[list_of_column_names]
corr = data2.corr(method="pearson")
sns.heatmap(corr)
什么我想要做的就是比较20列的列表与整个数据集。正常的.corr()函数可以给我一个20x20或23,000x23,000热图,但本质上我想要一个20x23,000热图。
如何为我的相关性添加更多特异性?
感谢您的帮助!
谢谢你的有用评论!这看起来在理论上效果很好。实际上,它看起来像'corr = data.corr()。iloc [3:5,1:2]',它应该是一个相对简单的相关性,需要相当长的一段时间才能终止(它没有大约5到目前为止分钟)。我猜这是因为.corr()首先计算了我所有23,000行之间的相关性,然后再进行分片。 – CalendarJ
好的。我将编辑以展示如何做到这一点。 – Andrew
如果新更改解决了您的问题,请接受此答案。 – Andrew