0
缓存pandas DataFrame对象的哪种方法将提供最高的性能?通过使用pickle
将其存储在磁盘上的平面文件中,或者将其存储在像Redis这样的键值存储中?通过序列化或内存中的KV存储缓存熊猫数据帧
缓存pandas DataFrame对象的哪种方法将提供最高的性能?通过使用pickle
将其存储在磁盘上的平面文件中,或者将其存储在像Redis这样的键值存储中?通过序列化或内存中的KV存储缓存熊猫数据帧
我有一个DF〜1 GB的纯文本数据。假设转储到磁盘的速度总是比阅读速度慢,我将HDF5的写入性能与pickle进行了比较。 HDF5耗时35秒,而咸菜则耗时190秒。所以,你可以考虑使用HDF5而不是泡菜
Wes McKinney报道说HDF5是熊猫的最佳选择,他在最近的一次演讲中说道。 – szeitlin
HDF5仍然是首选格式?或者[Feather](https://blog.cloudera.com/blog/2016/03/feather-a-fast-on-disk-format-for-data-frames-for-r-and-python-powered- by-apache-arrow /)现在是首选。链接的博客文章也是由韦斯。 – rhunwicks