python熊猫内存错误，同时合并大的csv文件

-1

我发布了一个关于内存错误的问题，同时使用大熊猫数据框处理大型csv文件。为了更加清楚，我提出了另一个问题：在合并大型csv文件（超过3000万行）时出现内存错误。那么，这有什么解决方案？谢谢！python熊猫内存错误，同时合并大的csv文件

来源

2016-05-12 physics_2015

您可以阅读通过流csv文件，CSV文件，请参阅本[文章]（http://stackoverflow.com/questions/17444679/reading- A-巨大-CSV功能于蟒蛇）。或者您可以购买并在您的PC中添加更多的RAM！如果你需要做很多机器学习/深度学习工作，那么这可能是最好的解决方案。 –

获取更多内存... – Alexander

问题不在于读取文件。假设我已经阅读了这些文件，并且我想根据其中一个变量合并它们。合并表时，我收到一条错误消息。 –

使用Python/Pandas处理数以千万计的数据集并不理想。考虑将数据存储到像Redshift这样的数据库中，而不是处理大量的CSV数据，在这种数据库中，您可以比使用Pandas时快上千倍的速度查询和处理数据。一旦您的数据在数据库中，您可以使用SQL将数据聚合/筛选/重新整形为“一口大小”输出，并提取本地分析使用Pandas（如果您愿意）。

长期来看，可以考虑使用Spark，它是构建在Scala上的分布式数据分析框架。它的学习曲线明显比熊猫的陡峭，但借鉴了很多核心概念。

红移：https://aws.amazon.com/redshift/

星火：http://spark.apache.org/

来源

2016-05-12 17:28:31

++使用Spark！ – MaxU

python熊猫内存错误，同时合并大的csv文件

回答

相关问题