通过序列化或内存中的KV存储缓存熊猫数据帧

缓存pandas DataFrame对象的哪种方法将提供最高的性能？通过使用pickle将其存储在磁盘上的平面文件中，或者将其存储在像Redis这样的键值存储中？通过序列化或内存中的KV存储缓存熊猫数据帧

2015-10-15 Nyxynyx

我有一个DF〜1 GB的纯文本数据。假设转储到磁盘的速度总是比阅读速度慢，我将HDF5的写入性能与pickle进行了比较。 HDF5耗时35秒，而咸菜则耗时190秒。所以，你可以考虑使用HDF5而不是泡菜

2015-10-15 15:26:24

Wes McKinney报道说HDF5是熊猫的最佳选择，他在最近的一次演讲中说道。 – szeitlin

HDF5仍然是首选格式？或者[Feather]（https://blog.cloudera.com/blog/2016/03/feather-a-fast-on-disk-format-for-data-frames-for-r-and-python-powered- by-apache-arrow /）现在是首选。链接的博客文章也是由韦斯。 – rhunwicks

通过序列化或内存中的KV存储缓存熊猫数据帧

回答

相关问题