Q

Apache PIG问题

2011-07-04 43 views 0 likes

0

我在运行猪脚本/ map-reduce作业方面有几个问题。Apache PIG问题

我知道，猪创造逻辑，物理，然后执行计划它真的开始执行的map/reduce作业之前;我能够使用命令解释<alias_name>查看逻辑/物理计划;但是，我如何查看执行计划（我想列出计划的不同地图/减少任务）？在执行猪的过程中，我看到创建了许多作业（地图/缩小对）。想要了解每项工作解决什么问题。
是否有任何明确的指导，我可以用它来了解所创建的计划，因为什么是特困是难以理解的。
我可以通过更改输入文件块的数量来更改地图作业的数量。我是否也可以控制减少工作的数量？我如何设置减速器的数量？
mapper/reducer节点中的默认堆内存大小是多少？哪些工作参数反映了这些？我可以通过-Xmx 1024m选项更改堆内存吗？当我以这种方式设置堆内存时，我的作业常常失败 - 可能会对可以提供的值有一些限制吗？

非常感谢！

2011-07-04 sachin2182

A

回答

2

有解释产生的不同种类的计划。给出一个目录路径而不是文件来从'解释'中获得所有3个计划。
不知道。
set default_parallel 10将设置减少作业数量，以10
它必须是在你的Hadoop设置。

2011-10-26 23:27:58 jaguarpaw

+0

这也是值得注意的是，您可以设置号码在陈述本身中，特定经营者的减排者。例如。 'B = A组由PARALLEL 18组成;' – HXCaine

2

“解释（猪命令）” ALIAS-NAME解释实际规划（在地图方面减少作业）
别名将在MR任务组合在一起。在计划阶段本身，人们可以看到，所有别名都被分组到一个给定的MR中。当编写联接，groupby或“set default_parallel desired no”时，可以使用“USING PARALLEL desired_no”来控制reducer的数量。猪脚本的开始。
这取决于一个跑步猪在哪里。如果MRv1：集mapred.java.opts -Xmx 在mrv2：设置mapred.map.size，设置mapred.map.java.opts -Xmx

2015-04-27 19:29:42 KrazyGautam

相关问题