2014-09-04 52 views
2

猪0.12介绍流蟒蛇的UDF,但他们是实验性的,所以他们需要的Hadoop 1.如何使用Python在Amazon EMR流在猪的UDF

http://pig.apache.org/docs/r0.12.1/udf.html#python-udfs

然而,只有亚马逊提供的AMI可以使用猪0.12 AMI 3.1.0,使用Hadoop的2.4,不Hadoop的1:

http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/emr-plan-hadoop-version.html

所以,支持养猪的正确版本的唯一AMI不支持的Hadoop版本是正确的。有没有办法让流式UDF在EMR上工作?

回答

2

您可以使用引导操作在EMR上安装您自己的猪版本。您需要创建一个没有安装在AMI(2.4.5版本)上的Pig的群集 - 然后安装您喜欢的Pig版本(0.12)

+0

我使用EMR AMI 3.0.4和Apache Pig 0.11。 1.1预安装,我只是从tarball中提取Apache Pig 0.13.0,并更新PATH指向0.13.0而不是0.11.0。我会假设同样的云也会与老的AMI一起完成。 – 2014-09-05 18:27:14

+0

这也应该工作。但是,Pig不是AMI本身的一部分,而是在群集的实例化过程中安装的。所以,你可以改变你的群集定义,不要预先安装它。 – user1452132 2014-09-06 12:24:55