2013-03-20 85 views
0

我正在从mysql导入表格给配置单元。该表有2115584行。在导入过程中我看到sqoop导入大量NULL行

13/03/20 18:34:31 INFO mapreduce.ImportJobBase: Retrieved 2115584 records. 

但是,当我在导入的表做一个count(*)我看到它有49262250行。到底是怎么回事?

更新:当指定--direct时,导入正常工作。

回答

6

想通了。从sqoop用户手册:

蜂巢将使用Sqoop导入的数据有问题,如果你的数据库的行包含有字符串字段配置单元的默认行分隔符(\ n和\ r字符)或列分隔符(\ 01个字符)存在于他们中。您可以使用--hive-drop-import-delims选项在导入时删除这些字符以提供Hive兼容的文本数据。

我刚刚指定了--hive-drop-import-delims,它现在可以工作。