Hadoop集群需求软件/硬件

嗨我正在尝试安装hadoop环境。总之，我试图解决的问题涉及数十亿个MB大小的XML文件，使用HIVE从他们那里提取相关信息并对信息进行一些分析工作。我知道这在hadoop世界中是一个微不足道的问题，但是如果Hadoop解决方案对于我来说比我将处理的文件的大小和数量更适合我，将会以几何处理形式增加。Hadoop集群需求软件/硬件

我参考过各种书籍，如“Hadoop - 明确指南”，“Hadoop在行动”等。资源如yahoo和hortonworks的文档。我无法弄清楚建立hadoop环境的硬件/软件规格。在我迄今称为资源我种中找到的标准解决方案，如

的Namenode/JobTracker的（2×1Gb/s的以太网，16 GB的RAM，4xCPU，100 GB磁盘）
的Datanode（ 2×1GB/s以太网，8 GB的RAM，4xCPU，多个磁盘，总金额超过500 GB的
）

，但如果任何人都可以给一些建议，这将是巨大的。谢谢

来源

2013-03-04 user1188611

你为什么不去亚马逊的EMR？ – Amar 2013-03-04 15:26:09

@Amar：因为我需要有自己的硬件，而且不会花费任何东西。此外，我正在尝试在此解决方案的基础上找出长期解决方案，因此我只需要以此方式来完成此任务。 – user1188611 2013-03-04 15:34:56

首先我建议你考虑：你需要更多的处理+一些存储或相反，并从这个角度选择硬件。你的情况听起来更多，然后存储。
我会指定一个有点不同的标准硬件hadoop
NameNode：高品质磁盘镜像，16 GB硬盘。
数据节点：16-24 GB RAM，双四核或双核六核CPU，4至6个1-2-3 SATA TB驱动器。

我也会考虑10 GBit选项。我认为如果它不会增加集群价格的15％以上 - 这是有道理的。 15％来自粗略估计，从mappers到reducers的数据占用了大约15％的工作时间。
在你的情况下，我会更愿意牺牲光盘大小来节省资金，但不是CPU /内存/驱动器数量。

来源

2013-03-04 15:39:47

感谢您的信息。价格对我来说不是问题，就好像现在一样。我所关心的只是硬件/软件规范，而不是完成工作。你说的对，我会做处理而不是存储。 – user1188611 2013-03-04 15:46:44

如果您需要更多处理，那么存储Amazon EC2或EMR分析可能非常有价值。 – 2013-03-04 16:20:43

我需要有我自己的硬件/软件。这是我向这里的人提出建议的唯一原因。我知道亚马逊EMR和EC2。 – user1188611 2013-03-04 17:14:25

“使用HIVE从他们那里提取相关信息” 这将会有点棘手，因为配置单元并不能很好地处理xml文件。你将要用另一种语言（ruby，python，perl等）构建一个解析脚本，它可以解析xml文件并生成列式输出，并将其加载到配置单元中。然后，您可以使用配置单元通过转换来调用该外部分析脚本，或者仅使用hadoopstreaming为配置单元准备数据。然后，这只是一个问题，你需要多快的工作完成，你需要多少空间来保存你将要拥有的数据量。

您可以在单个系统上使用少量文件构建过程来测试它。但是，您真的需要更好地处理整体计划的工作负载，以适当扩展群集。最小生产群集大小最少为3或4台机器，仅用于数据冗余。除此之外，根据需要添加节点以满足您的工作负载需求。

来源

2013-03-07 06:44:19 cran1um

Hadoop集群需求软件/硬件

回答

相关问题