2011-07-04 43 views
0

我在运行猪脚本/ map-reduce作业方面有几个问题。Apache PIG问题

  1. 我知道,猪创造逻辑,物理,然后执行计划它真的开始执行的map/reduce作业之前;我能够使用命令解释<alias_name>查看逻辑/物理计划;但是,我如何查看执行计划(我想列出计划的不同地图/减少任务)?在执行猪的过程中,我看到创建了许多作业(地图/缩小对)。想要了解每项工作解决什么问题。

  2. 是否有任何明确的指导,我可以用它来了解所创建的计划,因为什么是特困是难以理解的。

  3. 我可以通过更改输入文件块的数量来更改地图作业的数量。我是否也可以控制减少工作的数量?我如何设置减速器的数量?

  4. mapper/reducer节点中的默认堆内存大小是多少?哪些工作参数反映了这些?我可以通过-Xmx 1024m选项更改堆内存吗?当我以这种方式设置堆内存时,我的作业常常失败 - 可能会对可以提供的值有一些限制吗?

非常感谢!

回答

2
  1. 有解释产生的不同种类的计划。给出一个目录路径而不是文件来从'解释'中获得所有3个计划。

  2. 不知道。

  3. set default_parallel 10将设置减少作业数量,以10

  4. 它必须是在你的Hadoop设置。

+0

这也是值得注意的是,您可以设置号码在陈述本身中,特定经营者的减排者。例如。 'B = A组由PARALLEL 18组成;' – HXCaine

2
  1. “解释(猪命令)” ALIAS-NAME解释实际规划(在地图方面减少作业)

  2. 别名将在MR任务组合在一起。在计划阶段本身,人们可以看到,所有别名都被分组到一个给定的MR中。当编写联接,groupby或“set default_parallel desired no”时,可以使用“USING PARALLEL desired_no”来控制reducer的数量。猪脚本的开始。

  3. 这取决于一个跑步猪在哪里。 如果MRv1:集mapred.java.opts -Xmx 在mrv2:设置mapred.map.size,设置mapred.map.java.opts -Xmx