2012-07-09 59 views
1

我有一个制表符分隔的数据输入,由于数据大小,需要使用Apache Pig进行处理。 我已经成功地加载了数据,甚至分析了它,但我想以原始格式将输出存储到文件中,而不是存储元组。以自定义格式输出apache猪数据到文件

Sample Input 
A \t B 
A \t B 

Sample Output 
A \t B 
A \t B 

代替(A,B),(A,B)

Store D into 'output' using PigStorage('\n') 

在哪里的问题?

+0

你目前的输出实际上是什么样的?应该是PigStorage系列中的制表符? – 2012-07-09 11:11:12

+0

类似的东西:1,{(A,1),(D,1)} \ n 2,{(B,2),(C,2)}我希望获得与输入相同的格式。 – Pratik 2012-07-09 11:58:41

回答

0

您已加载了制表符分隔但您正在写回的输入新行(\ n)已分隔。

尝试:

Store D into 'output' using PigStorage('\t'); 

Store D into 'output' using PigStorage(); -- tab is the default delimiter 

至于输出的具体格式,我建议你看看压平[1]运营商。

[1] http://pig.apache.org/docs/r0.7.0/piglatin_ref2.html#Flatten+Operator