2013-03-04 83 views
2

嗨我正在尝试安装hadoop环境。总之,我试图解决的问题涉及数十亿个MB大小的XML文件,使用HIVE从他们那里提取相关信息并对信息进行一些分析工作。我知道这在hadoop世界中是一个微不足道的问题,但是如果Hadoop解决方案对于我来说比我将处理的文件的大小和数量更适合我,将会以几何处理形式增加。Hadoop集群需求软件/硬件

我参考过各种书籍,如“Hadoop - 明确指南”,“Hadoop在行动”等。资源如yahoo和hortonworks的文档。我无法弄清楚建立hadoop环境的硬件/软件规格。在我迄今称为资源我种中找到的标准解决方案,如

  1. 的Namenode/JobTracker的(2×1Gb/s的以太网,16 GB的RAM,4xCPU,100 GB磁盘)
  2. 的Datanode( 2×1GB/s以太网,8 GB的RAM,4xCPU,多个磁盘,总金额超过500 GB的

,但如果任何人都可以给一些建议,这将是巨大的。谢谢

+0

你为什么不去亚马逊的EMR? – Amar 2013-03-04 15:26:09

+0

@Amar:因为我需要有自己的硬件,而且不会花费任何东西。此外,我正在尝试在此解决方案的基础上找出长期解决方案,因此我只需要以此方式来完成此任务。 – user1188611 2013-03-04 15:34:56

回答

1

首先我建议你考虑:你需要更多的处理+一些存储或相反,并从这个角度选择硬件。你的情况听起来更多,然后存储。
我会指定一个有点不同的标准硬件hadoop
NameNode:高品质磁盘镜像,16 GB硬盘。
数据节点:16-24 GB RAM,双四核或双核六核CPU,4至6个1-2-3 SATA TB驱动器。

我也会考虑10 GBit选项。我认为如果它不会增加集群价格的15%以上 - 这是有道理的。 15%来自粗略估计,从mappers到reducers的数据占用了大约15%的工作时间。
在你的情况下,我会更愿意牺牲光盘大小来节省资金,但不是CPU /内存/驱动器数量。

+0

感谢您的信息。价格对我来说不是问题,就好像现在一样。我所关心的只是硬件/软件规范,而不是完成工作。你说的对,我会做处理而不是存储。 – user1188611 2013-03-04 15:46:44

+0

如果您需要更多处理,那么存储Amazon EC2或EMR分析可能非常有价值。 – 2013-03-04 16:20:43

+0

我需要有我自己的硬件/软件。这是我向这里的人提出建议的唯一原因。我知道亚马逊EMR和EC2。 – user1188611 2013-03-04 17:14:25

0

“使用HIVE从他们那里提取相关信息” 这将会有点棘手,因为配置单元并不能很好地处理xml文件。 你将要用另一种语言(ruby,python,perl等)构建一个解析脚本,它可以解析xml文件并生成列式输出,并将其加载到配置单元中。然后,您可以使用配置单元通过转换来调用该外部分析脚本,或者仅使用hadoopstreaming为配置单元准备数据。然后,这只是一个问题,你需要多快的工作完成,你需要多少空间来保存你将要拥有的数据量。

您可以在单个系统上使用少量文件构建过程来测试它。但是,您真的需要更好地处理整体计划的工作负载,以适当扩展群集。最小生产群集大小最少为3或4台机器,仅用于数据冗余。除此之外,根据需要添加节点以满足您的工作负载需求。