2016-08-17 274 views
1

我刚开始使用Sqoop Hands-on。我有一个问题,可以说我有一个数据库中有300个表,我想对这些表执行增量加载。我知道我可以使用追加模式或上次修改进行增量导入。单个sqoop作业是否可以用于多个表格并且可以同时运行

但是,如果作业中唯一不同的是表名,CDC列和最后一个值/更新值,那么我是否必须创建300个作业?

有没有人试过使用相同的工作,并将上面的东西作为参数传递,可以从循环中的文本文件中读取并且并行地为所有表执行相同的工作。

什么是行业标准和建议?

此外,有没有办法截断和重新加载hadoop表,这是非常小的,而不是执行CDC和以后合并表?

回答

0

有导入所有表“从数据库导入表格到HDFS” 但是它不会提供更改每个表的CDC列的方式。 另请参阅sqoop import multiple tables

没有截断,但可以通过跟随来实现相同。 --delete-target-dir“删除导入目标目录(如果存在)”

相关问题