apache-pig

    0热度

    1回答

    我正在将数据从mongodb导入hdfs。 我目前使用PIG脚本来加载数据。我需要每3小时从mongodb获取数据。为此,我需要传入mongo.input.query参数。但是我得到以下异常 java.io.IOException: org.apache.pig.tools.parameters.ParameterSubstitutionException: Undefined parameter

    0热度

    1回答

    我是Pig脚本的新手,并试图修改一些现有的猪脚本以从日志文件中提取一些数据。 E.g.我有2个日志文件,一个与该模式为: message Class { message Student { optional int32 uid = 1; optional string name = 2; } optional int32 cid = 1;

    0热度

    1回答

    我正在练习克卢代拉纱VMware Player(非商业用途)。 我在猪脚本是, a1 = load '/user/training/my_hdfs/id' using PigStorage('\t') as(id:int,name:chararray,desig:chararray); a2 = load '/user/training/my_hdfs/trips' using PigStorag

    0热度

    1回答

    我想查询使用hadoop的ghtorrent API提供的GitHub数据。我如何将这么多数据(4-5 TB)注入HDFS?另外,他们的数据库是实时的。是否有可能使用诸如pig,hive,hbase之类的工具来处理hadoop中的实时数据?

    -1热度

    1回答

    我使用下面的命令将数据加载到pig上,但遇到错误。 请纠正错误并告诉我解决方案。 swa = load '/home/user/data/emp.txt' using PigStorage(',') as ($0,$1,$2); 无错误2017年8月25日09:15:12656 [主要] ERROR org.apache.pig.tools.grunt.Grunt - ERROR 1200:

    1热度

    1回答

    我试图从HDFS运行猪剧本,但它显示了错误的文件不存在。 我的HDFS目录 [[email protected] ~]$ hdfs dfs -ls/ Found 11 items drwxrwxrwx - hdfs supergroup 0 2016-08-10 14:35 /benchmarks drwxr-xr-x - hbase supergroup 0 2017-08-19

    -2热度

    1回答

    我有以下文件tax_cal我想在猪加载: 101,5 | 2; 3 | 2 102,3 | 1; 4.5 | 2; 4 | 1 103,2 | 1; 5 | 2; 5.6 | 3 输出: 101,5 | 2,3 | 2 102,3 | 1,4.5 | 2,4 | 1 103,2 | 1,5 | 2,5.6 | 3 此外,我将这个输出文件传递给python UDF来计算总价格。 我该如何做到这一点?

    0热度

    1回答

    需要过滤猪在某一天的记录。所以样本数据如下: date_time visits count 2017-08-25 02:05:11 12345 5 2017-08-25 02:05:31 23456 7 2017-08-25 02:05:51 34567 1 2017-08-25 02:06:40 13423 3 在上面的案例中,我们只需要前3个匹配。

    0热度

    1回答

    我对猪很新,所以在试图在Pig中执行非常基本的处理时遇到了一些问题。 1-加载该文件使用猪 2-写处理逻辑来筛选记录基于日期,例如线具有2列COL_1和COL_2(假定列是chararray)和我需要得到只有在col_1和col_2之间有1天差异的记录。 3-最后将过滤的记录存储在Hive表中。 输入文件(制表符分隔): - 2016-01-01T16:31:40.000+01:00 2016-0

    0热度

    1回答

    我开始使用Apache pig,并试图转换一个csv文件。 如果输入的是这样的: 1,A,10,SS,11 ,B,11,BB,12 ,D,12,TT,13 2,A,20,GG,11 ,C,22,YY,9 ,E,30, , 是否有可能得到下面的输出? Number, Type1, Value, Type2, Value, 1, A, 10, SS, 11, 1,