2012-03-07 51 views
1

我是一名学生,试图使用一些大型数据集的机器学习算法。我们的训练集中有大约1.4亿条记录(当前在postgresql表中),并且有五个表大约600万条记录显示主键 - 外键关系。Hadoop或Postgresql进行有效处理

我们只需要2台以下配置 1)6GB内存采用第二代酷睿i5处理器 2)8GB内存采用第二代酷睿i7处理器

现在我们正在计划运行之前,它们分为逻辑分组我们的统计分析由于周转时间相当长。

1)我应该将它们分割成PostgreSQL中单独的表中,并将它们用MATLAB或R编程 OR 2)我应该通过移植数据库 3使用的hadoop与HBase的)我应该结合,并利用它们(即)根据逻辑组对其进行分解并转储到postgresql数据库中,并设置hadoop + hbase进行分析并根据必要的算法使用它。

谢谢

回答

2

很难相信在这样的小群集中Hadoop会有效。如果没有它,你可以有效地放松任务 - 它将会更有效几乎肯定
我会考虑的另一个考虑因素 - 什么是你的学习过程中的迭代时间。如果迭代需要几十秒 - 那么Hadoop作业开销(大约30秒)将会太多。
你可以从Hadoop获得什么 - 是有效的外部parralel排序 - 它是什么洗牌阶段。如果你需要它 - 考虑使用hadoop。
请注意,通常情况下,将关系模式移植到HBase并不容易 - 因为不支持连接。

+0

感谢您的回答。 – 2012-03-09 22:42:10