在EBS上设置Amazon Web服务上的Hadoop集群

我想知道如何通过AWS来设置hadoop集群（比如5个节点）。我知道如何在EC2上创建群集，但我不知道如何面对以下挑战。在EBS上设置Amazon Web服务上的Hadoop集群

任何帮助将是伟大的！

根据您的要求，这些建议会改变。但是，假设有2个主设备和3个工作站设置，则可以将r3实例用于主节点，因为它们对内存密集型应用程序进行了优化，并为工作节点使用d2实例。 d2实例有多个本地磁盘，因此可以承受一些磁盘故障，同时仍然保持数据安全。
为了回答您的具体问题，

治疗的Hadoop机器任何Linux应用程序。如果你的一般centOS点实例丢失会发生什么？ Hwnce通常建议使用保留实例。
Hadoop通常通过维护3个副本并以128或256 MB块的形式在工作节点上分发它们来存储数据。因此，您将有3TB数据存储在三个工作节点上。显然，在计算空间需求时，您必须考虑一些开销。

2017-07-28 22:20:00 proutray

您可以使用AWS的EMR服务 - 它专门设计用于EC2实例之上的Hadoop集群。它完全管理，它预先包装了您在Hadoop中需要的所有服务。

关于你的问题：

有Hadoop中三种主要类型的节点：

主 - 单个节点，不需要发现它。

核心 - 即处理任务的节点，但不具有的HDFS

如果任务节点的任何一部分 - 处理任务，并有HDFS

任务的部分节点丢失（如果它们是现场实例），群集将继续工作，没有问题。

关于存储，在EMR默认复制因子如下：

1簇<四个节点

2簇<十个节点

3对于所有其他集群

2017-07-29 04:46:17 ronhash

回答