我发布了一个关于内存错误的问题,同时使用大熊猫数据框处理大型csv文件。为了更加清楚,我提出了另一个问题:在合并大型csv文件(超过3000万行)时出现内存错误。那么,这有什么解决方案?谢谢!python熊猫内存错误,同时合并大的csv文件
-1
A
回答
0
使用Python/Pandas处理数以千万计的数据集并不理想。考虑将数据存储到像Redshift这样的数据库中,而不是处理大量的CSV数据,在这种数据库中,您可以比使用Pandas时快上千倍的速度查询和处理数据。一旦您的数据在数据库中,您可以使用SQL将数据聚合/筛选/重新整形为“一口大小”输出,并提取本地分析使用Pandas(如果您愿意)。
长期来看,可以考虑使用Spark,它是构建在Scala上的分布式数据分析框架。它的学习曲线明显比熊猫的陡峭,但借鉴了很多核心概念。
+0
++使用Spark! – MaxU
相关问题
- 1. Python的大熊猫 - 合并目录CSV文件到一个
- 2. Python的大熊猫错误
- 3. 在大熊猫合并错误
- 4. 熊猫合并df错误
- 5. Python的大熊猫列合并
- 6. 使用熊猫合并csv文件(合并和复制)
- 7. 熊猫大CSV
- 8. 大熊猫:错误时回路在给定的大熊猫行
- 9. 使用python熊猫将列表写入csv文件时出错
- 10. Python熊猫错误
- 11. 大熊猫列值合并
- 12. 大熊猫:与合并dataframes
- 13. 熊猫适用于大型csv文件
- 14. 在Python中进行机器学习时出现内存错误大熊猫
- 15. 大熊猫错误在Python 3.5.1
- 16. 熊猫合并给出错误输出
- 17. 大熊猫:错误的DataFrame.unstack
- 18. 合并和分组与IPython的多个CSV文件和熊猫
- 19. 大熊猫 - 内存不足
- 20. Python的大熊猫合并两个DataFrames具有条件逻辑
- 21. 的Python /大熊猫转换CSV成字典并写入新文件
- 22. 合并两个文件中的熊猫
- 23. 使用熊猫在python中读取大型CSV文件
- 24. 熊猫阅读.csv文件
- 25. 使用熊猫合并两个csv文件
- 26. 熊猫合并
- 27. 与大熊猫合并,同时保持NaN在底部
- 28. 大熊猫Timedelta错误
- 29. 大熊猫read_csv同时
- 30. Python的大熊猫:
您可以阅读通过流csv文件,CSV文件,请参阅本[文章](http://stackoverflow.com/questions/17444679/reading- A-巨大-CSV功能于蟒蛇)。或者您可以购买并在您的PC中添加更多的RAM!如果你需要做很多机器学习/深度学习工作,那么这可能是最好的解决方案。 –
获取更多内存... – Alexander
问题不在于读取文件。假设我已经阅读了这些文件,并且我想根据其中一个变量合并它们。合并表时,我收到一条错误消息。 –