2012-02-02 55 views
0

HDFS中的复制因子必须至少为3.尽管事实上选择它为3的主要目的是容错,并且机架故障的可能性远小于节点故障的可能性,但是复制因素背后的另一个原因是至少3?HDFS复制因素是如何决定的?

回答

3

没有理由复制因子必须是3,这是hadoop自带的默认值。您可以分别为HDFS中的每个文件设置复制级别。除了容错功能外,还允许使用消耗相同数据的作业并行运行。此外,如果有数据副本,hadoop可以尝试运行同一任务的多个副本,并首先完成相应任务。如果出于某种原因盒子速度很慢,这很有用。