实际上执行增量负载,我有我的Teradata表中的数据。我使用sqoop-import命令将该teradata表数据sqooped到Hive中。如何使用sqoop工具
但是,我的Teradata表将得到每天的基础上的数据。因此,需要将新添加的数据sqoop,即从teradata增量数据转换为Hive表。
任何人都可以请建议我一些解决方案来实现这一目标?
实际上执行增量负载,我有我的Teradata表中的数据。我使用sqoop-import命令将该teradata表数据sqooped到Hive中。如何使用sqoop工具
但是,我的Teradata表将得到每天的基础上的数据。因此,需要将新添加的数据sqoop,即从teradata增量数据转换为Hive表。
任何人都可以请建议我一些解决方案来实现这一目标?
如果你有类似的行ID /时间戳在表中的任何列,那么你可以使用:
--incremental [mode] --last-value [value] --check-column [col]
如果您对此有一个保存的作业,你可以跳过--last-value
,因为它会自动进行维护。
--incremental [mode]
有两种模式。 lastmodified
和append
,您可以根据您的要求使用任何一种。
...并确保仔细阅读Sqoop指南,章12至14 https://sqoop.apache.org/docs/1.4.6/SqoopUserGuide.html#_saved_jobs >>和思考的那句话:_“通过默认情况下,作业描述保存到存储在'$ HOME/.sqoop /'“_(即在特定节点的本地磁盘上)的私有存储库中_”您可以将Sqoop配置为使用共享的Metastore ...“ –
你能否解释一下,你想incremente每日蜂巢表? –
Teradata表中是否有某种插入/更新时间戳? – Andrew