apache-pig

    0热度

    2回答

    我是新来的Apache猪和尝试加载测试Twitter的数据由每一个用户名,找出鸣叫的次数将数据加载到猪。下面是一个使用PigStorage作为我的数据 format(twitterId,comment,userRefId): Sample Data 当我试图将数据加载到猪(”‘),它也分我的评论区分为多个字段,因为评论也可以有’, ”。请让我知道如何在Pig中正确加载这些数据。我使用下面的命令

    0热度

    1回答

    我正在使用Hortonworks沙盒并尝试运行一个简单的猪脚本。似乎与“文件不存在”有关的恼人的错误。 下面是脚本: REGISTER '/piggybank.jar'; inp = load '/my.csv' USING org.apache.pig.piggybank.storage.CSVExcelStorage.. 错误2997:遇到IOException异常。文件不存在: HD

    0热度

    2回答

    我想执行一个猪语句,显示我在txt文件中的数据,我正在mapreduce模式下运行,但我收到一个错误,请有人帮我解决这个问题! ! [[email protected] ~]# pig -x mapreduce 17/04/19 17:42:34 INFO pig.ExecTypeProvider: Trying ExecType : LOCAL 17/04/19 17:42:

    0热度

    1回答

    我用以下3个statments阅读这是目前在HDFS数据,然后在使用中的MapReduce模式,它给了我的猪下大错转储数据的数据可以请别人expalin它给我或提供解决方案,请 grunt> a= load '/temp' AS (name:chararray, age:int, salary:int); grunt> b= foreach a generate (name, salary);

    0热度

    1回答

    当我开始使用pig在mapreduce模式下读取hdfs上的文件时,当我使用dump b时,它开始了mapreduce过程,并且在完成之后,它会继续重复,请告诉我whats问题。 (我已将文件权限设置为777,将hdfs中的/ tmp权限设置为777)。 [[email protected] conf]# pig -x mapreduce 17/04/19 23:05:59 INFO pig.E

    1热度

    1回答

    的一部分,我有这样的 a = load 'large_file' using PigStorage(',') b = filter a by $16 = '12345678' c = filter a by $16 = '456' d = union b,c store d into 'output.csv' 猪剧本。如果我想用值的列表来筛选。例如,我想在第16列有一个大值列表中的值时

    0热度

    1回答

    REGISTER 'hdfs:///user/flume/elephant-bird-hadoop-compat-4.1.jar'; REGISTER 'hdfs:///user/flume/elephant-bird-pig-4.1.jar'; REGISTER 'hdfs:///user/flume/elephant-bird-core-4.1.jar'; REGISTER 'hdfs:

    0热度

    1回答

    我有以下数据: address|some_mask_value 123 Main | 10100011110 124 Main | 10100011100 我使用Apache猪版0.15.0.2.4.2.0-258 我“M试图在第二到最后一个字符来创建一个指标‘some_mask_value’是1。我已经试过: load_data = LOAD '/myfile.txt' USING Pi

    0热度

    1回答

    我有这段代码。 large = load 'a super large file' CC = FILTER large BY $19 == 'abc OR $20 == 'abc' OR $19 == 'def' or $20 == 'def' ....; 或条件的数量可能会上升到100甚至数千。 有没有更好的方法来做到这一点?

    0热度

    1回答

    我有两个数据集,data1和data2。 data2具有如下的数据, a1:u:11#eve:f:6 a1:u:12#eve:f:6 a1:u2:13#eve:f:3 a1:u1:12#eve:s:6 a1:u1:11#eve:f:6 这里:以及#是分隔符。我产生data2终于为, LOAD '$data2' USING PigStorage(':') AS (ad: