在hbase中增量数据加载

我正在寻找将增量数据（基于源表的时间戳）加载到我的表中的最佳方法。我有一个数据源每天更新的源表（在hbase中）。在第一个流程中，我将不得不将全部数据传输到我的测试表（以hbase为单位）。第二天，我只需要传输源表中新添加的记录。为此，我将使用时间戳来区分需要传送的内容和不传送的内容。那么哪个是最好的转移方式。我应该使用PIG，MapReduce还是Spark？在hbase中增量数据加载

来源

2016-06-10 Nav_cfc

你有没有考虑过使用现有的课程，如org.apache.hadoop.hbase.mapreduce.CopyTable？他们支持增量复制。

无需编写代码。

来源

2016-06-10 12:07:37 rrydziu

我读了关于使用复制表的增量数据加载。但我找不到任何例子。你可以请给我一个例子，使用可复制的增量加载.. –

所以这个想法是你使用starttime和endtime。 1. hbase org.apache.hadoop.hbase.mapreduce.CopyTable --new.name = tableCopy tableOriginal --starttime = 1 --endtime = 1465735288000然后2. hbase org.apache.hadoop.hbase.mapreduce.CopyTable - -new.name = tableCopy tableOriginal --starttime = 1465735288000 --endtime = 1465821688000所以你需要计算你完成的地方。 – rrydziu

感谢哥们。我试试这个.. –

在hbase中增量数据加载

回答

相关问题