2015-04-01 154 views
0

请帮我把文件保存..我有以下情形 - 输入文件..阿帕奇猪 - 基于日期列

ID name Time-stamp 
1234 kiran 18-MAR-2015 01:02:31 
1234 kiran 18-MAR-2015 01:02:31 
1234 kiran 19-MAR-2015 01:02:31 
1234 kiran 18-MAR-2015 11:02:31 
1234 kiran 20-MAR-2015 01:02:00 
1234 kiran 11-MAR-2015 21:12:31 
1234 kiran 18-MAR-2015 01:02:31 
1234 kiran 30-MAR-2015 01:02:31 
1234 kiran 22-MAR-2015 01:11:00 
1234 kiran 30-MAR-2015 01:02:31 
1234 kiran 19-MAR-2015 01:02:00 

现在我需要编写一个基于在时间戳列输出的日期输出文件将是:

user/username/DATE/part-m-000000 

- DATE是可变的文件夹名称应该是

user/username/18-MAR-2015/part-m-000000 

上述文件包含所有VA单日攻略

1234 kiran 18-MAR-2015 01:02:31 
1234 kiran 18-MAR-2015 01:02:31 
1234 kiran 18-MAR-2015 11:02:31 
1234 kiran 18-MAR-2015 01:02:31 

另一个文件夹的名称应该是

user/username/19-MAR-2015/part-m-000000 

上述文件包含一个日期的所有值

1234 kiran 19-MAR-2015 01:02:31 
1234 kiran 19-MAR-2015 01:02:00 

另一个文件夹的名称应该是

user/username/20-MAR-2015/part-m-000000 

以上fil E包含在烧毛日期的所有值

1234 kiran 20-MAR-2015 01:02:00 

另一个文件夹的名称应该是

user/username/22-MAR-2015/part-m-000000 

上述文件包含烧毛日期

1234基兰22-MAR-2015 01:11所有的值:00

另一个文件夹的名称应该是

user/username/30-MAR-2015/part-m-000000 

上述文件包含烧毛日期的所有值

1234 kiran 30-MAR-2015 01:02:31 
1234 kiran 30-MAR-2015 01:02:31 

请帮我

谢谢。SREE

回答

0

下面的步骤应该帮助 -

  1. 使用日期函数来将时间戳转换为所需的格式。
  2. 组按日期
  3. 弄平组
  4. 保存的#3使用org.apache.pig.piggybank.storage.MultiStorage结果。