2016-07-06 119 views
0

正在尝试处理文件。截至目前,我正在得到如下所示的输出。如何根据给定的格式在猪中合并两条线?

input file:- 
c=1,2,3 
a,b,c,d,a 
d,e,f 
g,h,i,i 
c=2,3,4 
j,k,l 
m,n,a,h 
c=3,2,5 
d,g,a 
s,fs,a 


    expecting an output like:- 
    c=1,2,3,a,b,c,d,a 
    c=1,2,3,d,e,f 
    c=1,2,3,g,h,i,i 
    c=2,3,4,j,k,l 
    c=2,3,4,m,n,a,h 
    c=3,2,5,d,g,a 
    c=3,2,5,s,fs,a 

是否有任何其他方式可以得到类似的输出。

Another output format:- 
    c=1,2,3,{(a,b,c,d,a),(d,e,f),(g,h,i,i)} 
    c=2,3,4,{(j,k,l),(m,n,a,h)} 
    c=3,2,5,{(d,g,a),(s,fs,a)} 

有人可以帮助我。我正在试着和猪在一起,但我没有接近这一点,我正试图用猪来解决这个问题,以便进行一些练习。

感谢&问候, Ankush雷迪

+0

编写自己的UDF。 –

回答

0

我不认为这是可能的猪。猪是并行处理,然后它不能知道文件中的记录顺序。所以我建议你在用猪进行处理之前用bash脚本或其他工具预处理它。

+0

如果文件太大,我们无法使用bash脚本处理该文件,因此需要几小时才能完成。任何其他建议@Duc LT。谢谢。 –