2016-09-30 90 views
0

因此,我正在处理参数能量模拟,并最终以500GB的数据存储在.CSV文件中。我需要能够处理所有这些数据以比较结果并获得不同参数影响的见解。处理大量数据

每个csv文件名都包含用于模拟的参数信息,因此我无法合并这些文件。

我通常使用pandas将.csv文件加载到python并定义一个Class。但现在(所有这些数据)都没有足够的内存来做到这一点。

你能指出我处理这些数据的方法吗?我需要能够做图并比较csv文件。

谢谢你的时间。

+0

总之,你需要懒惰的评估数据。您可能想要研究一种逐个(或批次)检索数据点的方法,但这自然取决于您的特定问题(您没有向我们解释过)。 –

+0

也许有帮助:[“大数据”工作流使用熊猫](https://stackoverflow.com/questions/14262433/large-data-work-flows-using-pandas/14268804#14268804) –

回答

0

Convert csv文件到hdf5,它是为了处理大量和复杂的数据集而创建的。它适用于pandas以及otherlibraries

+0

我已经转换文件并已分隔120GB hdf5文件。但它需要永久查询。例如:store.keys()[0]大约需要3分钟。任何想法为什么? –