2014-12-03 65 views
3

Namenode HA(NFS,QJM)在hadoop 2.x(HDFS-1623)中可用。它为Namenode提供了快速故障转移功能,但是我找不到上的任何描述需要多长时间才能从故障中恢复恢复。任何人都可以告诉我吗?namenode ha故障转移时间


感谢您answer.As事实的事情,我想知道两个节点(活动NameNode和备用的NameNode)的转变之间的时间。可你告诉我多久?

回答

0
  • 快速故障转移是指不是复苏,但故障转移到其他的NameNode
  • 哈的NameNode与多个namenodes
  • 配置如果任何一个NameNode会成为失败那么其他的NameNode会变得活跃。
  • 如果失败namenode再次启动意味着它将处于待机状态。
+0

戴rengamasy ... vaiku vandhalam POTU vidriyaa – Varadha31590 2016-10-12 07:25:24

0
  • 当您使用HA,多个NameNode的集群将运行,但杂志节点将在一次单独的名称节点上只写。所以一个名字节点将在活跃状态,另外一个将在待机

  • 如果一个NameNode的失败,则备用节点将transist进入活跃状态。它被称为从失败中恢复。

+0

杂志节点上都'active'写入和'passive' namenodes,如果不写,那么如何被动的NameNode可以采取管理和管理活动namenode以前处理的元数据? – 2014-12-03 12:56:34

+0

日记节点写入活动名称节点,备用名称节点从日志节点读取。 – Kumar 2014-12-03 18:05:12

1

的Hadoop权威指南,我相信这是很容易理解和非常直截了当。
故障转移和围栏

从活动名称节点到备用的转换由系统中的一个 新实体管理的称为故障转移控制器。故障转移 控制器是可插拔的,但第一个实施使用ZooKeeper 确保只有一个名称节点处于活动状态。每个名称节点都运行一个轻量级故障转移控制器进程,该进程的工作是监视名称节点的故障(使用简单的心跳线机制)和 ,如果名称节点失败,则会触发故障转移。

例如,故障转移也可以由管理员手动启动,例如在日常维护的 案例中。这被称为优雅 故障切换,因为故障切换控制器安排了两个名称节点的切换 切换以切换角色。

但是,如果出现 不符合故障转移的情况,则不可能确定 失败的namenode已停止运行。例如,慢速网络或网络分区可以触发故障转移,即使之前活动的名称节点仍在运行,并且认为它仍然是 活动的名称节点。高可用性实现尽最大努力,以确保以前活动的名称节点不会受到任何 损坏并导致损坏 - 一种称为防护的方法。该系统 采用一系列击剑机制,包括杀死 名称节点的过程中,撤销其访问共享存储 目录(典型地通过使用供应商特定的NFS的COM普通话),和 经由远程管理禁用其网络端口命令。作为最后的 度假村,以前活动的名称节点可以使用技术 (图形上称为STONITH)或“在 磁头中拍摄另一个节点”进行围绕,该技术使用专用的配电装置强制使用 电源放下主机。

客户端故障转移由客户端库透明地处理。最简单的实现使用客户端配置来控制故障转移。 HDFS URI使用映射到 一对namenode地址(在配置文件中)的逻辑主机名,客户机 库尝试每个namenode地址,直到操作成功。

希望它有帮助!

2

这里是时间故障转移与备用的NameNode一些合格的例子:

使用300TB原始存储6000000块和100K文件60节点集群:30秒。因此,总故障切换时间范围为1-3分钟。

200个节点的群集占用1PB原始存储空间和100万个文件:110秒。因此总的故障切换时间范围从2.5到4.5分钟。

对于小型到中型群集,冷故障转移速度只有30到120秒慢。

来源:http://hortonworks.com/blog/ha-namenode-for-hdfs-with-hadoop-1-0-part-1/

+1

我认为那些时间是指Hadoop 1.x.就在链接引用部分之前,它说:“Hadoop 1需要启动第二个NameNode,NameNode才能脱离安全模式。在我们的实验中,我们观察了以下时间......”。这个问题是关于Hadoop 2.x的问题。 – 2017-09-18 15:31:45