apache-pig

    0热度

    1回答

    集分析我有一个电影数据库中的以下数据集: 评分:用户ID,MovieID,评级::电影:MovieID,标题::用户:用户ID,性别,年龄 现在,我必须加入上述3个数据集,并确定哪部电影在女性中评分最高,男性中评分最低,反之亦然。 我也做了JOIN: myusers = LOAD '/user/cloudera/movies/input/users.dat' USING PigStora

    0热度

    1回答

    我有包含以下格式的数据的文件: abc 123 456 cde 45 32 efg 322 654 abc 445 856 cde 65 21 efg 147 384 abc 815 078 efg 843 286 等。 使用pig如何转成如下格式: abc 123 456 cde 45 32 efg 322 654 abc 445 856 cde 65 21 efg 147

    0热度

    1回答

    是否可以在Apache Pig中创建空表? 定的表名,列名和列式,这是很容易做到在Apache中配置单元相同的操作: CREATE TABLE employees(name string, id int) STORED AS ORC;

    1热度

    1回答

    ,含有准备insert声明 public static void main(String... args) throws Exception { Class.forName("com.microsoft.sqlserver.jdbc.SQLServerDriver"); BufferedReader csv = new BufferedReader(new InputStrea

    0热度

    1回答

    相同的键我有一个用例 col1|col2 a101|10 a101|20 a101|10 a101|30 a201|40 a201|50 预期输出: A101 |列表< 10,20,30> a201 |列表< 40,50> 下面是查询,但我没有得到预期的输出。我想在列表中存储col2不同的值。 input1= load 'list1.csv' using PigStorage('|

    0热度

    1回答

    我有这样的记录。 12:-64:12033:24:0:0:1495532058:1384:0:0:0:102 23:-64:8820:24:0:0:1495532126:2788:0:0:0:102 23:-64:8826:24:0:0:1495532132:3064:0:0:0:102 23:-64:8826:24:0:0:1495532132:3065:0:0:0:102 我想过滤猪

    0热度

    1回答

    我使用pig加载hbase表。 product = LOAD 'hbase://product' USING org.apache.pig.backend.hadoop.hbase.HBaseStorage('a:*', '-loadKey true') AS (id:bytearray, a:map[]) 关系product有一个元组,其中包含映射。我要地图数据转换成元组 这里是样品.. g

    1热度

    1回答

    嗨,我有一个这样的猪脚本。在做foreach语句时,它会抛出无效的标量投影错误。这里是我的代码。 a = load 'file' using PigStorage(':'); b = group a by ($1, $7, $11); c = foreach b generate flatten(group), COUNT(a) as (cnt: int); d = filter c by

    1热度

    2回答

    我有一个包含HDFS数据的.TSV文件,我无法将它加载到Pig中。 我使用的命令是“ A = load 'file_location' as (name:chararray, age:int, gpa:float); B = foreach A generate (name, age); DUMP B; 返回错误:无法找到运营商别名

    0热度

    1回答

    我想连接使用Pig的所有记录。 与“pigStorage”和“-tagFile”标签中的数据加载后,我的数据是这样的: (filename, aaaaaaaaaaa) (filename, bbbbbbbbbbbbbb) ,我更喜欢的结果是: (filename, aaaaaaaaaaabbbbbbbbbbbbbb) 然后,我可以将数据存储到文件名为rowkey的HBase。 任何建议将