我需要在HDFS上存储大约10TB的大文件。我需要了解的是HDFS如何存储这个文件。假设群集的复制因子是3,并且每个节点上有10个节点的磁盘空间超过10 TB的群集,即总群集容量超过100TB。在hadoop HDFS中存储大文件?
现在HDFS会随机选择三个节点并将文件存储在这三个节点上。那么这听起来很简单。请确认?
或者HDFS是否将文件拆分为 - 分别称为每个1TB的10个拆分,然后将每个拆分存储在随机选择的3个节点上。所以分裂是可能的,如果是的话,它是通过它启用的配置方面。 如果HDFS必须分割二进制或文本文件 - 它是如何分割的。只需按字节。
除非您打算使用的格式是可分割的,否则这是一个糟糕的主意。从HDFS的角度来看,这并不重要,但对于MapReduce而言,如果它不可分割,则只有一个映射器能够处理所述文件。 –