2017-05-31 75 views
0

我想连接使用Pig的所有记录。 与“pigStorage”和“-tagFile”标签中的数据加载后,我的数据是这样的:连接猪中的多条记录

(filename, aaaaaaaaaaa) 
(filename, bbbbbbbbbbbbbb) 

,我更喜欢的结果是:

(filename, aaaaaaaaaaabbbbbbbbbbbbbb) 

然后,我可以将数据存储到文件名为rowkey的HBase。

任何建议将不胜感激。

回答

0

通过文件名对数据进行分组,然后使用BagToString将所有行李打包成单个字符串。

B = GROUP A BY filename; 
C = FOREACH B GENERATE group,BagToString(A.$1,''); 
DUMP C; 
+0

感谢您的答复,I've尝试这样做,我得到了(文件名,{(文件名,AAAAAAAA),(文件名,bbbbbbbbbbb)}。我也试图删除文件名内部的元组,并得到(文件名,{(aaaaaaaaa),(bbbbbbbbbbbb)} –

+0

@ Y.Wang我已经更新了答案 –

+0

谢谢!!!!这是有效的! –