嗨我正在尝试安装hadoop环境。总之,我试图解决的问题涉及数十亿个MB大小的XML文件,使用HIVE从他们那里提取相关信息并对信息进行一些分析工作。我知道这在hadoop世界中是一个微不足道的问题,但是如果Hadoop解决方案对于我来说比我将处理的文件的大小和数量更适合我,将会以几何处理形式增加。Hadoop集群需求软件/硬件
我参考过各种书籍,如“Hadoop - 明确指南”,“Hadoop在行动”等。资源如yahoo和hortonworks的文档。我无法弄清楚建立hadoop环境的硬件/软件规格。在我迄今称为资源我种中找到的标准解决方案,如
- 的Namenode/JobTracker的(2×1Gb/s的以太网,16 GB的RAM,4xCPU,100 GB磁盘)
- 的Datanode( 2×1GB/s以太网,8 GB的RAM,4xCPU,多个磁盘,总金额超过500 GB的
)
,但如果任何人都可以给一些建议,这将是巨大的。谢谢
你为什么不去亚马逊的EMR? – Amar 2013-03-04 15:26:09
@Amar:因为我需要有自己的硬件,而且不会花费任何东西。此外,我正在尝试在此解决方案的基础上找出长期解决方案,因此我只需要以此方式来完成此任务。 – user1188611 2013-03-04 15:34:56