我想读取一个大型数据矩阵(目前测试90 * 85000,后来150000 * 850000),并对列进行一些操作。熊猫列式组块
为了加快速度,我尝试了chunking。这极大地加速了(〜100x)读取过程,但由于我必须连接列操作的块,所以我在后面的步骤中放弃了所有的加速。
我的问题:
- 有没有办法在列维而不是行维?
- 有什么替代方法可以实现我想要的吗?
\编辑:一些定时运行:
- 读小型文件:〜10秒
- 读取小文件,以 'CHUNKSIZE = 20':< 0.1秒
- 读取小文件,用手动实现按列分块:50岁〜 W/O级联,4分钟以下W /级联 一行
- 读取文件中的行与一些后处理相当于什么呢大熊猫〜13S
您使用的所有85000列?如果不是只读取你需要的“usecols”列。 – Merlin
@Merlin由于这是预处理步骤,不幸的是,答案是肯定的 – Dahlai
/@ Dahlai磁盘上的文件大小和RAM有多少?用所有的代码你可以概述数据munge过程.....你使用IPython笔记本吗? – Merlin