apache-pig

    0热度

    2回答

    我有这样的数据。 1:23:0.20 2:34:0.50 3:67:0.90 4:87:0.10 5:23:0.12 我想总结每2行最后一列值这样。 0.20+0.50 = 0.70 0.90+0.10 = 1.0 ,并打印这样 1:23:0.20:0.70 2:34:0.50:0.70 3:67:0.90:1.0 4:87:0.10:1.0 5:23:0.12 这是

    0热度

    1回答

    我想要做一个简单的猪查询,我需要找到电影的平均评级为ID 178我已经尝试了一些版本的下面和过滤器工作,但没有AVG功能。任何人都可以建议吗?由于 a = load '/user/pig/u.data' AS (userid:int, movieid:int, rating:double, timestamp:chararray); b = FOREACH a GENERATE AVG(rati

    0热度

    1回答

    我具有以下数据: John,fl,3 John,wt,3 John,sp,4 John,sm,3 Mary,fl,3 Mary,wt,3 Mary,sp,4 Mary,sm,4 我想按名称(第一列),以计算所述数据的平均GPA(第三列)。为此,我创建了以下猪脚本,它工作得很好。 a = LOAD '/root/sample.txt' using PigStorage(',') a

    0热度

    2回答

    我有一个情况下,我需要的格式的行读取文件 Field1,Field2,Field3,Field4,Field5,Field6#Field1,Field2,Field3 虽然一个方式来实现这一目标的分割记录的读者是使用记录读者喜欢KeyValueLineRecordReader用分隔符#。但我将不得不在我的UDF中使用String.split来分割,的密钥和值,我觉得它会减慢执行速度。 1.是否

    0热度

    2回答

    我是猪脚新手。在下面的例子中,我被卡住了。任何人都可以帮助我如何使用pigscript获得下面指定的输出? 输入: 1|ABC|NC 1|DEF|NC 2|CFD|NY 2|CGF|NY 输出: 1|ABC,DEF|NC 2|CFD,CGF|NY 脚本: A = LOAD 'testfile.txt' USING PigStorage('|') AS (Id:chararray,n

    0热度

    1回答

    后加入和GROUP BY我在新的猪,并试图理解为什么我不能指望后加入和组: A = LOAD 'mary' as (line); B = LOAD 'mary' as (line); wordsA = foreach A generate flatten(TOKENIZE(line)) as wordA; grpdA = group wordsA by wordA; cntdA = fo

    0热度

    1回答

    我想弄清楚下面的问题。 有多少女性用户提供了至少一个等级4.我认为我的连接和过滤器是正确的,但我无法弄清楚计数部分已经尝试了以下的众多版本。 a = load '/user/pig/movie' AS (userid:int, movieid:int, rating:int, timestamp:chararray); b = load '/user/pig/reviewer' using Pi

    0热度

    1回答

    我在下面 提到文件的数据美国美国欧洲欧洲美国 美国美国欧洲美国 EUROPE美国 我试图找出美国和欧洲的数量。 1) inp = LOAD '/user/countries.txt' as (singleline); dump inp; Output (USA USA EUROPE EUROPE EUROPE EUROPE USA) (USA USA EUROPE EUROPE USA

    0热度

    1回答

    我试图存储数据AVRO格式,但无法实现为什么我得到错误。基准2不在联合[“null”,“string”]这是什么意思? 解析XML: REGISTER piggybank.jar REGISTER /opt/cloudera/parcels/CDH/lib/pig/lib/avro.jar REGISTER /opt/cloudera/parcels/CDH/lib/pig/lib/json-

    0热度

    1回答

    我是一个拉丁猪新手。我想处理下面的文件,并计算最多发生的词。 Hadoop | is | an | open | source |基于Java |编程|框架| that |支持| |处理| |存储|非常|大|数据|集|在| a |分布式|计算|环境。 该文件包含一个|作为分隔符。