apache-pig

0热度

2回答

我有这样的数据。 1:23:0.20 2:34:0.50 3:67:0.90 4:87:0.10 5:23:0.12 我想总结每2行最后一列值这样。 0.20+0.50 = 0.70 0.90+0.10 = 1.0 ，并打印这样 1:23:0.20:0.70 2:34:0.50:0.70 3:67:0.90:1.0 4:87:0.10:1.0 5:23:0.12 这是

0热度

1回答

阿帕奇猪AVG功能

我想要做一个简单的猪查询，我需要找到电影的平均评级为ID 178我已经尝试了一些版本的下面和过滤器工作，但没有AVG功能。任何人都可以建议吗？由于 a = load '/user/pig/u.data' AS (userid:int, movieid:int, rating:double, timestamp:chararray); b = FOREACH a GENERATE AVG(rati

0热度

1回答

铸造在负荷与在分开的步骤

我具有以下数据： John,fl,3 John,wt,3 John,sp,4 John,sm,3 Mary,fl,3 Mary,wt,3 Mary,sp,4 Mary,sm,4 我想按名称（第一列），以计算所述数据的平均GPA（第三列）。为此，我创建了以下猪脚本，它工作得很好。 a = LOAD '/root/sample.txt' using PigStorage(',') a

0热度

2回答

可以2种分离

我有一个情况下，我需要的格式的行读取文件 Field1,Field2,Field3,Field4,Field5,Field6#Field1,Field2,Field3 虽然一个方式来实现这一目标的分割记录的读者是使用记录读者喜欢KeyValueLineRecordReader用分隔符#。但我将不得不在我的UDF中使用String.split来分割,的密钥和值，我觉得它会减慢执行速度。 1.是否

0热度

2回答

Pigscript逻辑实现

我是猪脚新手。在下面的例子中，我被卡住了。任何人都可以帮助我如何使用pigscript获得下面指定的输出？输入： 1|ABC|NC 1|DEF|NC 2|CFD|NY 2|CGF|NY 输出： 1|ABC,DEF|NC 2|CFD,CGF|NY 脚本： A = LOAD 'testfile.txt' USING PigStorage('|') AS (Id:chararray,n

0热度

1回答

COUNT猪

后加入和GROUP BY我在新的猪，并试图理解为什么我不能指望后加入和组： A = LOAD 'mary' as (line); B = LOAD 'mary' as (line); wordsA = foreach A generate flatten(TOKENIZE(line)) as wordA; grpdA = group wordsA by wordA; cntdA = fo

0热度

1回答

阿帕奇猪不同和计数

我想弄清楚下面的问题。有多少女性用户提供了至少一个等级4.我认为我的连接和过滤器是正确的，但我无法弄清楚计数部分已经尝试了以下的众多版本。 a = load '/user/pig/movie' AS (userid:int, movieid:int, rating:int, timestamp:chararray); b = load '/user/pig/reviewer' using Pi

0热度

1回答

标记如何在PIG中起作用？

我在下面提到文件的数据美国美国欧洲欧洲美国美国美国欧洲美国 EUROPE美国我试图找出美国和欧洲的数量。 1) inp = LOAD '/user/countries.txt' as (singleline); dump inp; Output (USA USA EUROPE EUROPE EUROPE EUROPE USA) (USA USA EUROPE EUROPE USA

0热度

1回答

PIG脚本错误，虽然试图以AVRO格式存储：基准2不在联合[“空”，“字符串”]

我试图存储数据AVRO格式，但无法实现为什么我得到错误。基准2不在联合[“null”，“string”]这是什么意思？解析XML： REGISTER piggybank.jar REGISTER /opt/cloudera/parcels/CDH/lib/pig/lib/avro.jar REGISTER /opt/cloudera/parcels/CDH/lib/pig/lib/json-

0热度

1回答

字数与自定义分隔符（|）使用猪

我是一个拉丁猪新手。我想处理下面的文件，并计算最多发生的词。 Hadoop | is | an | open | source |基于Java |编程|框架| that |支持| |处理| |存储|非常|大|数据|集|在| a |分布式|计算|环境。该文件包含一个|作为分隔符。