2017-07-26 396 views
0

我有一个hdfs文件,其大小为11 GB。我想分割成1 GB的多个文件。 我该怎么做?我的Hadoop版本是2.7.3hadoop命令在HDFS上拆分文件

+0

为什么要拆分档案? –

+0

可能的重复-https://stackoverflow.com/questions/29567139/how-to-divide-a-big-dataset-into-multiple-small-files-in-hadoop-in-an-efficient –

+0

hdfs dfs - Ddfs.block.size = 1G -put file' – philantrovert

回答

0

如果有火花,尝试如下─

下面的例子拆分输入文件分成2个文件:

spark-shell

scala> sc.textFile("/xyz-path/input-file",2).saveAsTextFile("/xyz-path/output-file")