2017-02-03 75 views
0

我的问题是,我有一个500k行的Oracle表。我设置了sqoop将它作为parquet文件导入HDFS。我将--num-partition参数设置为32,我得到了32个parquet文件,但其中一个是28 MB大小,其他大小仅为2-3 KB。sqoop进口拼花地板尺寸

这里是我的sqoop命令:

bin/sqoop import --connect <JDBC> --username <USER> --password <PASSWD> --table <TABLE> --target-dir <TARGET_DIR> -m32 --as-parquetfile --delete-target-dir --outdir <DIR> 

我的问题是,什么可能是这个文件大小的原因吗?

回答

0

这意味着您的数据不是均匀分布的。

我在命令中没有看到任何--split-by列。所以,假设拆分是在主键上完成的。分割基本上是通过同时运行范围查询来完成的。范围查询之一是获取最大数据,因此大小为28 MB。