我是一名学生,试图使用一些大型数据集的机器学习算法。我们的训练集中有大约1.4亿条记录(当前在postgresql表中),并且有五个表大约600万条记录显示主键 - 外键关系。Hadoop或Postgresql进行有效处理
我们只需要2台以下配置 1)6GB内存采用第二代酷睿i5处理器 2)8GB内存采用第二代酷睿i7处理器
现在我们正在计划运行之前,它们分为逻辑分组我们的统计分析由于周转时间相当长。
1)我应该将它们分割成PostgreSQL中单独的表中,并将它们用MATLAB或R编程 OR 2)我应该通过移植数据库 3使用的hadoop与HBase的)我应该结合,并利用它们(即)根据逻辑组对其进行分解并转储到postgresql数据库中,并设置hadoop + hbase进行分析并根据必要的算法使用它。
谢谢
感谢您的回答。 – 2012-03-09 22:42:10