2016-05-12 129 views
-1

我发布了一个关于内存错误的问题,同时使用大熊猫数据框处理大型csv文件。为了更加清楚,我提出了另一个问题:在合并大型csv文件(超过3000万行)时出现内存错误。那么,这有什么解决方案?谢谢!python熊猫内存错误,同时合并大的csv文件

+0

您可以阅读通过流csv文件,CSV文件,请参阅本[文章](http://stackoverflow.com/questions/17444679/reading- A-巨大-CSV功能于蟒蛇)。或者您可以购买并在您的PC中添加更多的RAM!如果你需要做很多机器学习/深度学习工作,那么这可能是最好的解决方案。 –

+1

获取更多内存... – Alexander

+0

问题不在于读取文件。假设我已经阅读了这些文件,并且我想根据其中一个变量合并它们。合并表时,我收到一条错误消息。 –

回答

0

使用Python/Pandas处理数以千万计的数据集并不理想。考虑将数据存储到像Redshift这样的数据库中,而不是处理大量的CSV数据,在这种数据库中,您可以比使用Pandas时快上千倍的速度查询和处理数据。一旦您的数据在数据库中,您可以使用SQL将数据聚合/筛选/重新整形为“一口大小”输出,并提取本地分析使用Pandas(如果您愿意)。

长期来看,可以考虑使用Spark,它是构建在Scala上的分布式数据分析框架。它的学习曲线明显比熊猫的陡峭,但借鉴了很多核心概念。

红移:https://aws.amazon.com/redshift/

星火:http://spark.apache.org/

+0

++使用Spark! – MaxU