我有一个包含4个DataNode的Hadoop集群。我在两个问题之间感到困惑:数据复制和数据分发。HDFS复制和数据分布
假设我有一个2 GB的文件,我的复制因子是2 &块大小是128 MB。当我把这个文件放入hdfs时,我看到每个128 MB块的两个副本被创建,并且它们被放置在datanode3和datanode4中。但datanode2 & datanode1不使用。由于复制因素,数据被复制,但我期望在datanode1和datanode2中看到一些数据块。有什么问题吗?
假设我有20个DataNode并且复制因子是2.如果我将一个文件(2 GB)放在HDFS上,我又希望看到每个128 MB的两个副本,但也期望看到这些128 MB块是分布在20个DataNode之间。