我在平面文件中使用Python Pandas/Pytables/H5py将平面文件转换为HDF5的几个TB数据(在子集中)查询和搜索。我打算用to_hdf
之类的东西转换数据的每个小节并将它们存储在HDFStore中。HDFStore:将数据附加到现有表并将其重新索引与创建新表之间的效率
尽管存储的数据将永远不需要更改,但我可能需要稍后将数据附加到某个特定子部分,然后重新索引(用于查询)整个部分。我的问题是这样的:将数据追加到现有表(使用store.append
),然后重新编制新表,或者我应该简单地创建一个带有需要追加的数据的新表?
如果我做后者,我可能会在HDSFStore中创建一个LOT(超过10万个)节点。这会降低节点访问时间吗?
我试图看看其他答案,并创建了自己的商店与一堆节点,看看是否有效果,但我找不到任何重要的。任何帮助表示赞赏!
你高效的意思是什么?最小化时间或最小化空间或某种组合? –