2013-12-12 233 views
4

我有一个4节点的RedShift集群。RedShift节点故障切换

  1. 当其中一个节点出现故障时,整个群集将不可用?
  2. 如果是 - 多长时间?
  3. 当群集恢复时 - 是否返回到故障发生前的相同点,或者数据可能会从几小时前回滚到S3快照?
  4. 我该如何模拟这种情况来自行检查这个场景?

非常感谢!

回答

8

如果是单节点故障 - 亚马逊将启动一个新节点并从其他节点流数据(如果有的话,每个节点将写入两个不同的节点)。 在这种情况下,我们可以预计:

  1. 整个集群的停机时间,直到新节点启动+填充DB信息。应该在3-4分钟左右。
  2. 经过这3-4分钟后,群集将返回到它发生故障之前的完全相同点。群集将可用于读取和写入。
  3. 由于群集中的数据重新分配,将会出现一些减速。

如果有多个节点发生故障,红移将从最新的S3备份中恢复自身。 S3备份在下列情况完成:

  1. 如果自上次备份
  2. 已有8小时如果红移是自上次备份
  3. 手动
  4. 你充满了更多的则数据5GB当您选择终止群集时,可以选择最终快照
3

它恰好发生在我的群集 - 其中一个节点失败。花了将近20分钟才能在仪表板中发现(不健康显示在“性能”选项卡中,但在“状态”选项卡中显示为健康状态)。

从初始故障1小时后,群集将其状态更改为'修改',并且在另一个1小时后新节点已到位。

有在“最新事件”的消息:

在亚马逊红移群集的节点“XXX”被自动在2013年12月18日11时42分UTC取代。群集现在正常运行。

对于整个时间群集不可用 - 没有查询运行,没有进口是可能的。

数据与发生故障时的数据完全相同。

+0

谢谢!还有两个问题:你使用2TB还是16TB节点?集群实际使用的数据量是多少? – diemacht