2017-06-27 46 views
0

哪一个是按照-方面的速度和性能的选项导出从蜂箱/ HDFS数据到SQL Server的目的之间更好的选择。批量插入(BCP)到SQL Server VS Sqoop导出到SQL Server

1)使用Sqoop导出工具来连接到RDBMS(SQL服务器)并直接导出数据。

2)使用HIVE使用INSERT OVERWRITE LOCAL DIRECTORY命令,然后在这些CSV文件执行BCP(或大容量插入查询),以将数据放入SQL服务器的数据库转储CSV文件。

或者, 是否有其他更好的选择?

回答

1

以我的经验,我用bcp每当我可以。这是从我可以告诉最快的方式到数据库的鸟枪数据库,并且可以在(有点)细粒度级别上配置。

几件事情要考虑:

  1. 使用临时表。没有主键,没有索引,只是原始数据。
  2. 有一个“整合”进程内加载后四处移动数据。
  3. 使用约5000一排大小启动,但如果性能是最令人关注的,然后进行测试。
  4. 确保您提高超时。