2016-06-10 104 views
0

我正在寻找将增量数据(基于源表的时间戳)加载到我的表中的最佳方法。我有一个数据源每天更新的源表(在hbase中)。在第一个流程中,我将不得不将全部数据传输到我的测试表(以hbase为单位)。第二天,我只需要传输源表中新添加的记录。为此,我将使用时间戳来区分需要传送的内容和不传送的内容。那么哪个是最好的转移方式。我应该使用PIG,MapReduce还是Spark?在hbase中增量数据加载

回答

0

你有没有考虑过使用现有的课程,如org.apache.hadoop.hbase.mapreduce.CopyTable?他们支持增量复制。

无需编写代码。

+0

我读了关于使用复制表的增量数据加载。但我找不到任何例子。你可以请给我一个例子,使用可复制的增量加载.. –

+0

所以这个想法是你使用starttime和endtime。 1. hbase org.apache.hadoop.hbase.mapreduce.CopyTable --new.name = tableCopy tableOriginal --starttime = 1 --endtime = 1465735288000然后2. hbase org.apache.hadoop.hbase.mapreduce.CopyTable - -new.name = tableCopy tableOriginal --starttime = 1465735288000 --endtime = 1465821688000所以你需要计算你完成的地方。 – rrydziu

+0

感谢哥们。我试试这个.. –