我有大量的数据(几TB)并累积...它们包含在许多制表符分隔的文本文件中(每个大约30MB)。大部分任务包括读取数据并基于一系列谓词语句对观察值/行进行汇总(汇总/平均+附加转换),然后将输出保存为文本,HDF5或SQLite文件等。我通常使用R对于这样的任务,但我担心这可能有点大。一些候选方案是很多文本文件中的大量数据 - 如何处理?
- 写了整个事情在C(或 的Fortran)
- 导入的文件(表)到直接在 关系数据库和 然后决绝的R或Python的 块(一些变换的不 适合纯SQL的解决方案)
- 用Python语言编写整个事情
会(3)是一个坏主意?我知道你可以用Python打包C例程,但是在这种情况下,由于没有任何计算上的限制(例如,需要许多迭代计算的优化例程),我认为I/O可能与计算本身一样是一个瓶颈。您是否有任何关于进一步考虑或建议的建议?由于
编辑感谢您的答复。似乎有发生冲突约Hadoop的意见,但在任何情况下,我没有访问到群集(虽然我可以用几个unnetworked机)...
伟大的问题,这听起来像我与生物序列数据相同的问题。 – Stedy 2010-06-01 18:47:10