2012-08-13 164 views
0

我有两个问题作为存储系统的hadoop。Hadoop数据拆分和数据流控制

  1. 我有3个数据节点的Hadoop集群,我想直接一个巨大的文件的拆分说大小为128MB(假设分割大小为64MB),以我的选择数据的节点。 这就是如何控制在这种情况下哪个分割去哪个DataNode。我的意思是让我们说我们有3个数据节点(即D1,D2,D3),我们希望特定的分裂(让我们说'A'),我希望它移动到特定的数据节点让它成为D2。

    我们该怎么做?

  2. hadoop文件系统的最小可能拆分大小是多少?我们如何将其配置为最小分割大小。

回答

1

1)你无法控制其中的数据块被放置

2)只要你想小(也许应该是1024个字节的倍数虽然,但我不认为有一个但在现代硬件上,小于64/128 MB的任何内容都是低效的(如果您在MR Job中执行任何CPU密集型任务,可以指定较小的处理分割大小)

+0

Thankyou Chris回答。我的问题是关于如何改变源代码或编写应用程序或设置一些优先级,将新的包含数据的数据导入特定的数据节点。 – 2012-08-14 05:16:41

+0

我们可以对源代码进行一些更改以控制块流量。至少我们可以在md5校验和的基础上分配块,即md5总和为1-100的块进入NodeA,100-200进入NodeB,200-300进入NodeC,依此类推。 – 2012-11-21 07:35:50