2013-03-13 57 views
0

我是hadoop的新手。 我想检查一下我是否在研究和质疑假设。当MR运行时hadoop地图分开

这是这个想法。 例如,hadoop中的5个节点,1应该是主节点。 每个从节点都有1个MR任务。 - 在conf/mapred-site.xml中配置。

这是我研究过我运行过hadoop的例子。 MR是自动决定字数的地图任务编号。

Q1。它是否与块大小选项或其他东西连接?

它可以通过属性进行更改。当我运行PI和随机文本编写器时,它发生了变化。第二季度销售价格指数为:

Q2。是否有可能改变任何其他的MR程序?我的意思是,在字数统计中,属性会影响地图任务的编号。

这是另一个想法。 在这种情况下,我得到了4个奴隶,2个地图任务。这意味着,它可以一次运行2个节点。

这只是假设。 JT制作2个地图任务,估计时间超过1小时。 这对性能没有好处。 2个节点没有运行。如果使用4个节点进行映射,则速度可能更快。我想在作业运行时分离现有的地图。

Q3。这种假设的可能性。如果可以的话,让我知道如何获得参考。

我在等你的建议。

谢谢大家。

+0

看看这个: http://yaseminavcular.blogspot.com/2011/06/how-to-set-number-of-maps-with-hadoop.html – Alper 2013-03-13 11:47:31

回答

0

对于你的第一个问题,它与你拥有的块大小和文件数有关,例如,你有3,7GB的数据,你有512MB的数据大小,它为此创建了8个地图任务。此外,它与您的输入目录中的文件编号直接相关。对于目录中的每个文件,至少创建一个地图任务。你也可以通过编程来增加(是的,这意味着你不能减少)地图任务。

-1

感谢您的答案。

首先,我没有想到文件的数量。实际上,当MR在JVM中运行时,我对分割地图感到好奇。我试图找到一些信息,这是没用的。

现在好了,我知道hadoop配置的重要性,特别是mapred-site.xml对于MR,我要研究更多关于配置。

再次感谢你。

相关问题