Hadoop完全分布式模式

我是Hadoop的新手。我设法开发了一个简单的Map/Reduce应用程序，在'伪分布式模式'下工作正常。我想以'完全分布式模式'来测试它。关于这个我有几个问题;Hadoop完全分布式模式

我需要多少台机器（节点）（推荐使用最少&）来处理文件大小为1-10GB的文件？
什么是硬件要求（主要是，我想知道＃的核心，内存空间和磁盘空间）？

2011-06-03 Maggie

您将不得不提供更多关于处理类型，您使用的API，输入文件类型等的信息，以便任何人对您的体面人群进行教育性猜测。鉴于此，对于相同规格的节点，您的性能可以线性扩展，因此可以很容易地自行进行基准测试，并通过添加1-2个节点并记录您的hadoop工作时间来找出答案。 – diliop 2011-06-03 19:46:02

我检查了Cloudera的硬件建议：http://www.cloudera.com/blog/2010/03/clouderas-support-team-shares-some-basic-hardware-recommendations/

从该页面的代码片段

针对不同的工作负载，包括我们原来的“基地”的建议

各种硬件配置：

光处理配置（1U /机器）：两个四核CPU，8GB 内存和4个磁盘驱动器（1TB或 2TB）。请注意，CPU密集型工作（如自然语言处理）涉及在处理数据之前将大型号加载到 RAM中，并且应配置2GB RAM /内核而不是1GB RAM /内核。
平衡计算配置（1U /机器）：使用主板控制器直接连接两个四核CPU，16至24GB内存和4个磁盘驱动器（1TB或2TB）。这些通常可以在一个2U机柜中以两个主板和8个驱动器的双胞胎的形式提供。
存储重配置（2U /机器）：两个四核CPU，16至24GB内存和12个磁盘驱动器（1TB或2TB）。这种机器的功耗在空闲状态下开始约200W，并且在激活时可以高达〜350W。
计算密集配置（2U /机器）：两个四核CPU，48-72GB内存和8个磁盘驱动器（1TB或2TB）。当需要大内存模型和大量参考数据缓存的组合时，通常会使用这些内存。

来源

2011-06-06 16:59:33 Nija

Hadoop完全分布式模式

回答

相关问题