apache-pig

    0热度

    1回答

    我是编程界的新手,我正在学习Hadoop。在写猪查询时,我得到了意想不到的输出结果。我试过的查询是 D = LOAD 'data1' AS (a:int,b:int); S = LOAD 'data2' AS (c:int,d:int); J = JOIN D by a, S by c; DUMP J; 我插入outup和数据集。我的要求是只获得数据1和第一列数据2(组合)的第一栏,但我

    0热度

    1回答

    我假设在Java中char []和byte []应该能够被无缝地转换并且被视为相同的权利?

    0热度

    1回答

    DUMP avg_2000 DUMP avg_2001 DUMP avg_2002 OUTPUT:1345.45 OUTPUT:1256.45 OUTPUT:1456.45 请指导我如何划分avg_2000/avg_2002猪

    0热度

    1回答

    另外,可以为此设置的最大值是多少。请让我知道在设置此标志时需要考虑的任何先决条件。 谢谢!

    0热度

    2回答

    我想在两个文件加入后过滤记录。 文件BX-Books.csv包含书籍数据。并且文件BX-Book-Ratings.csv包含书评分数据,其中ISBN是来自两个文件的共同列。文件之间的内部连接使用此列完成。 我想获得2002年出版的书籍。 我已经使用了下面的脚本,但我得到了0条记录。 grunt> BookXRecords = LOAD '/user/pradeep/BX-Books.csv' US

    0热度

    1回答

    的过程我有数据。我正在使用Pig到流程此数据。 PigSummarize数据将存储在Hive中。然后配置单元表使用Sqoop在RDBMS中导出。现在我需要自动化所有这个过程。这是可能的,我会写所有这些任务3特定的方法在的MapReduce,然后运行该的MapReduce工作,而所有这些任务由一个执行一个。 对于创建MapReduce作业,我想使用。 NetSDK。所以我的问题是这是可能的,并且如果

    0热度

    1回答

    我有一个管道分隔的文本文件,比如说abc.txt。在不同的记录中有不同的列数。记录中的列数可以是100,80,70,60。我需要根据第三列值拆分abc.txt。如果第三列的值为“A”,那么该记录将转到A.txt,如果“B”然后是B.txt。需要编写一个PIG脚本。

    0热度

    1回答

    我有一些关于ElasticSearch的数据需要在HDFS上发送。我试图使用猪(这是我第一次使用它),但我有一些问题需要为我的数据定义正确的模式。首先,我尝试使用选项'es.output.json=true'和org.elasticsearch.hadoop.pig.EsStorage加载JSON,并且我可以正确加载/转储数据,并使用STORE A INTO 'hdfs://path/to/sto

    1热度

    1回答

    我有Azure上的HDInsight群集和hdfs(Azure存储)中的.csv文件。 使用apache-pig我想处理这些文件并将输出存储在配置单元表中。为了实现这一点,我已经写了下面的脚本:成功 A = LOAD '/test/input/t12007.csv' USING PigStorage(',') AS (year:chararray,ArrTime:chararray,DeptTim

    0热度

    1回答

    我有一些带有“.spc”模式的二进制文件,我想用pig mapper将这些文件存储到HBase中。 rowkey是文件名。 这里是我的命令: A = LOAD 'hdfs-directory/sampleID-uvvis.spc' USING BinStorage(); B = FOREACH A GENERATE $0 AS rowkey; C = GROUP B BY rowkey;