2017-07-28 98 views
0

我想知道如何通过AWS来设置hadoop集群(比如5个节点)。我知道如何在EC2上创建群集,但我不知道如何面对以下挑战。在EBS上设置Amazon Web服务上的Hadoop集群

  1. 如果我失去现场实例会发生什么。我如何保持集群的行进。
  2. 我正在处理一些大小为1TB的数据集。是否有可能相应地设置EBS。在这种情况下如何访问HDFS。

任何帮助将是伟大的!

回答

0

根据您的要求,这些建议会改变。但是,假设有2个主设备和3个工作站设置,则可以将r3实例用于主节点,因为它们对内存密集型应用程序进行了优化,并为工作节点使用d2实例。 d2实例有多个本地磁盘,因此可以承受一些磁盘故障,同时仍然保持数据安全。
为了回答您的具体问题,

  1. 治疗的Hadoop机器任何Linux应用程序。如果你的一般centOS点实例丢失会发生什么? Hwnce通常建议使用保留实例。
  2. Hadoop通常通过维护3个副本并以128或256 MB块的形式在工作节点上分发它们来存储数据。因此,您将有3TB数据存储在三个工作节点上。显然,在计算空间需求时,您必须考虑一些开销。
0

您可以使用AWS的EMR服务 - 它专门设计用于EC2实例之上的Hadoop集群。 它完全管理,它预先包装了您在Hadoop中需要的所有服务。

关于你的问题:

有Hadoop中三种主要类型的节点:

- 单个节点,不需要发现它。

核心 - 即处理任务的节点,但不具有的HDFS

如果任务节点的任何一部分 - 处理任务,并有HDFS

任务的部分节点丢失(如果它们是现场实例),群集将继续工作,没有问题。

关于存储,在EMR默认复制因子如下:

1簇<四个节点

2簇<十个节点

3对于所有其他集群

但你可以改变它 - http://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-hdfs-config.html