2011-06-03 71 views
0

我是Hadoop的新手。我设法开发了一个简单的Map/Reduce应用程序,在'伪分布式模式'下工作正常。我想以'完全分布式模式'来测试它。关于这个我有几个问题;Hadoop完全分布式模式

  1. 我需要多少台机器(节点)(推荐使用最少&)来处理文件大小为1-10GB的文件?
  2. 什么是硬件要求(主要是,我想知道#的核心,内存空间和磁盘空间)?
+0

您将不得不提供更多关于处理类型,您使用的API,输入文件类型等的信息,以便任何人对您的体面人群进行教育性猜测。鉴于此,对于相同规格的节点,您的性能可以线性扩展,因此可以很容易地自行进行基准测试,并通过添加1-2个节点并记录您的hadoop工作时间来找出答案。 – diliop 2011-06-03 19:46:02

回答

2

我检查了Cloudera的硬件建议:http://www.cloudera.com/blog/2010/03/clouderas-support-team-shares-some-basic-hardware-recommendations/

从该页面的代码片段

针对不同的工作负载,包括我们原来的“基地”的建议

各种硬件配置:

  • 光处理配置 (1U /机器):两个四核CPU,8GB 内存和4个磁盘驱动器(1TB或 2TB)。请注意,CPU密集型工作 (如自然语言处理 )涉及在处理数据之前将大型号加载到 RAM中,并且应配置2GB RAM /内核 而不是1GB RAM /内核。
  • 平衡计算配置(1U /机器):使用主板控制器直接连接两个四核CPU,16至24GB内存和4个磁盘驱动器(1TB或2TB)。这些通常可以在一个2U机柜中以两个主板和8个驱动器的双胞胎的形式提供。
  • 存储重配置(2U /机器):两个四核CPU,16至24GB内存和12个磁盘驱动器(1TB或2TB)。这种机器的功耗在空闲状态下开始约200W,并且在激活时可以高达〜350W。
  • 计算密集配置(2U /机器):两个四核CPU,48-72GB内存和8个磁盘驱动器(1TB或2TB)。当需要大内存模型和大量参考数据缓存的组合时,通常会使用这些内存。