我是编程界的新手,我正在学习Hadoop。在写猪查询时,我得到了意想不到的输出结果。我试过的查询是 D = LOAD 'data1' AS (a:int,b:int);
S = LOAD 'data2' AS (c:int,d:int);
J = JOIN D by a, S by c;
DUMP J;
我插入outup和数据集。我的要求是只获得数据1和第一列数据2(组合)的第一栏,但我
我有一些关于ElasticSearch的数据需要在HDFS上发送。我试图使用猪(这是我第一次使用它),但我有一些问题需要为我的数据定义正确的模式。首先,我尝试使用选项'es.output.json=true'和org.elasticsearch.hadoop.pig.EsStorage加载JSON,并且我可以正确加载/转储数据,并使用STORE A INTO 'hdfs://path/to/sto
我有Azure上的HDInsight群集和hdfs(Azure存储)中的.csv文件。 使用apache-pig我想处理这些文件并将输出存储在配置单元表中。为了实现这一点,我已经写了下面的脚本:成功 A = LOAD '/test/input/t12007.csv' USING PigStorage(',') AS (year:chararray,ArrTime:chararray,DeptTim
我有一些带有“.spc”模式的二进制文件,我想用pig mapper将这些文件存储到HBase中。 rowkey是文件名。 这里是我的命令: A = LOAD 'hdfs-directory/sampleID-uvvis.spc' USING BinStorage();
B = FOREACH A GENERATE $0 AS rowkey;
C = GROUP B BY rowkey;