2016-11-30 103 views
0

我用32个从机运行HDFS。hdfs数据歪斜,文件为什么不均匀分布?

每一个从有剩余的(其余均为不HDFS)

当我把32个* 100 GB的文件,将文件传送到只有一些奴隶大致300GB的本地磁盘空间。由于磁盘空间不足导致任务崩溃。

我该如何避免这个问题?

回答

1

我不是管理员,但在查看你的问题时,这里是第一个弹出我脑海中的东西。

Hadoop是一个“拓扑感知”系统。请阅读有关它 here.

如果拓扑是不正确的,则HDFS与默认的复制(3次)写道将按顺序写(随机节点 - >在不同机架的节点 - >同一机架第二副本,但一个不同的节点)。

好主意也检查复制因素。希望这可以帮助!