Hadoop或Postgresql进行有效处理

我是一名学生，试图使用一些大型数据集的机器学习算法。我们的训练集中有大约1.4亿条记录（当前在postgresql表中），并且有五个表大约600万条记录显示主键 - 外键关系。Hadoop或Postgresql进行有效处理

我们只需要2台以下配置 1）6GB内存采用第二代酷睿i5处理器 2）8GB内存采用第二代酷睿i7处理器

现在我们正在计划运行之前，它们分为逻辑分组我们的统计分析由于周转时间相当长。

1）我应该将它们分割成PostgreSQL中单独的表中，并将它们用MATLAB或R编程 OR 2）我应该通过移植数据库 3使用的hadoop与HBase的）我应该结合，并利用它们（即）根据逻辑组对其进行分解并转储到postgresql数据库中，并设置hadoop + hbase进行分析并根据必要的算法使用它。

谢谢

来源

2012-03-07 Sree Aurovindh

很难相信在这样的小群集中Hadoop会有效。如果没有它，你可以有效地放松任务 - 它将会更有效几乎肯定
我会考虑的另一个考虑因素 - 什么是你的学习过程中的迭代时间。如果迭代需要几十秒 - 那么Hadoop作业开销（大约30秒）将会太多。
你可以从Hadoop获得什么 - 是有效的外部parralel排序 - 它是什么洗牌阶段。如果你需要它 - 考虑使用hadoop。
请注意，通常情况下，将关系模式移植到HBase并不容易 - 因为不支持连接。

来源

2012-03-07 19:36:04

感谢您的回答。 – 2012-03-09 22:42:10

Hadoop或Postgresql进行有效处理

回答

相关问题