apache-pig

0热度

1回答

我是编程界的新手，我正在学习Hadoop。在写猪查询时，我得到了意想不到的输出结果。我试过的查询是 D = LOAD 'data1' AS (a:int,b:int); S = LOAD 'data2' AS (c:int,d:int); J = JOIN D by a, S by c; DUMP J; 我插入outup和数据集。我的要求是只获得数据1和第一列数据2（组合）的第一栏，但我

0热度

1回答

猪和蜂巢中Chararray和Bytearray的区别究竟是什么？

我假设在Java中char []和byte []应该能够被无缝地转换并且被视为相同的权利？

0热度

1回答

如何划分有猪只有一个值表

DUMP avg_2000 DUMP avg_2001 DUMP avg_2002 OUTPUT：1345.45 OUTPUT：1256.45 OUTPUT：1456.45 请指导我如何划分avg_2000/avg_2002猪

0热度

1回答

如何在触发猪作业的shell脚本中设置PIG_HEAPSIZE值

另外，可以为此设置的最大值是多少。请让我知道在设置此标志时需要考虑的任何先决条件。谢谢！

0热度

2回答

使用PIG加入后过滤数据

我想在两个文件加入后过滤记录。文件BX-Books.csv包含书籍数据。并且文件BX-Book-Ratings.csv包含书评分数据，其中ISBN是来自两个文件的共同列。文件之间的内部连接使用此列完成。我想获得2002年出版的书籍。我已经使用了下面的脚本，但我得到了0条记录。 grunt> BookXRecords = LOAD '/user/pradeep/BX-Books.csv' US

0热度

1回答

在CSV格式在自动化HDFS （天青HDInsight）猪，配置单元，Sqoop

的过程我有数据。我正在使用Pig到流程此数据。 PigSummarize数据将存储在Hive中。然后配置单元表使用Sqoop在RDBMS中导出。现在我需要自动化所有这个过程。这是可能的，我会写所有这些任务3特定的方法在的MapReduce，然后运行该的MapReduce工作，而所有这些任务由一个执行一个。对于创建MapReduce作业，我想使用。 NetSDK。所以我的问题是这是可能的，并且如果

0热度

1回答

使用PIG脚本将一个文件拆分为多个文件

我有一个管道分隔的文本文件，比如说abc.txt。在不同的记录中有不同的列数。记录中的列数可以是100,80,70,60。我需要根据第三列值拆分abc.txt。如果第三列的值为“A”，那么该记录将转到A.txt，如果“B”然后是B.txt。需要编写一个PIG脚本。

0热度

1回答

从ES加载数据并使用pig存储为HDro HDFS

我有一些关于ElasticSearch的数据需要在HDFS上发送。我试图使用猪（这是我第一次使用它），但我有一些问题需要为我的数据定义正确的模式。首先，我尝试使用选项'es.output.json=true'和org.elasticsearch.hadoop.pig.EsStorage加载JSON，并且我可以正确加载/转储数据，并使用STORE A INTO 'hdfs://path/to/sto

1热度

1回答

如何将pig输出存储到配置单元表？

我有Azure上的HDInsight群集和hdfs（Azure存储）中的.csv文件。使用apache-pig我想处理这些文件并将输出存储在配置单元表中。为了实现这一点，我已经写了下面的脚本：成功 A = LOAD '/test/input/t12007.csv' USING PigStorage(',') AS (year:chararray,ArrTime:chararray,DeptTim

0热度

1回答

将二进制文件存储到hbase与猪

我有一些带有“.spc”模式的二进制文件，我想用pig mapper将这些文件存储到HBase中。 rowkey是文件名。这里是我的命令： A = LOAD 'hdfs-directory/sampleID-uvvis.spc' USING BinStorage(); B = FOREACH A GENERATE $0 AS rowkey; C = GROUP B BY rowkey;