Hadoop数据拆分和数据流控制

2012-08-13 164 views 0 likes

我有两个问题作为存储系统的hadoop。Hadoop数据拆分和数据流控制

我有3个数据节点的Hadoop集群，我想直接一个巨大的文件的拆分说大小为128MB（假设分割大小为64MB），以我的选择数据的节点。这就是如何控制在这种情况下哪个分割去哪个DataNode。我的意思是让我们说我们有3个数据节点（即D1，D2，D3），我们希望特定的分裂（让我们说'A'），我希望它移动到特定的数据节点让它成为D2。

我们该怎么做？
hadoop文件系统的最小可能拆分大小是多少？我们如何将其配置为最小分割大小。

回答

1）你无法控制其中的数据块被放置

2）只要你想小（也许应该是1024个字节的倍数虽然，但我不认为有一个但在现代硬件上，小于64/128 MB的任何内容都是低效的（如果您在MR Job中执行任何CPU密集型任务，可以指定较小的处理分割大小）

2012-08-14 00:47:04

Thankyou Chris回答。我的问题是关于如何改变源代码或编写应用程序或设置一些优先级，将新的包含数据的数据导入特定的数据节点。 – 2012-08-14 05:16:41

我们可以对源代码进行一些更改以控制块流量。至少我们可以在md5校验和的基础上分配块，即md5总和为1-100的块进入NodeA，100-200进入NodeB，200-300进入NodeC，依此类推。 – 2012-11-21 07:35:50