2016-09-23 87 views
0

我复制从HDFS一些数据S3使用以下命令:复制到S3的位置使用DistCp使用命令

$ hadoop distcp -m 1 /user/hive/data/test/test_folder=2015_09_19_03_30 s3a://data/Test/buc/2015_09_19_03_30 

2015_09_19_03_30斗不存在进入S3。它将/user/hive/data/test/test_folder=2015_09_19_03_30目录的数据成功复制到S3 2015_09_19_03_30存储桶中,但是当我再次执行相同的命令时,它会在S3中创建另一个存储桶。

我希望这两个文件应该在同一个桶中。

回答

1

这是你试图正确的情况下, ,因为它使新文件在同一个桶

// first there is no data 
$ hadoop fs -ls s3n://testing/ 
$ 

// then dist cp the data in dir input to testing bucket 
$ hadoop distcp input/ s3n://testing/ 
$ hadoop fs -ls s3n://testing/ 
Found 1 items 
drwxrwxrwx -   0 1970-01-01 00:00 s3n://testing/input 
$ hadoop fs -ls s3n://testing/input/ 
Found 3 items 
-rw-rw-rw- 1  1670 2016-09-23 13:23 s3n://testing/input/output 
-rw-rw-rw- 1  541 2016-09-23 13:23 s3n://testing/input/some.txt 
-rw-rw-rw- 1  1035 2016-09-23 13:23 s3n://testing/input/some2.txt 
$ 
// added new file a.txt in input path 
// and executed same command 
$ hadoop distcp input/ s3n://testing/ 
$ hadoop fs -ls s3n://testing/input/ 
Found 4 items 
-rw-rw-rw- 1   6 2016-09-23 13:26 s3n://testing/input/a.txt 
-rw-rw-rw- 1  1670 2016-09-23 13:23 s3n://testing/input/output 
-rw-rw-rw- 1  541 2016-09-23 13:23 s3n://testing/input/some.txt 
-rw-rw-rw- 1  1035 2016-09-23 13:23 s3n://testing/input/some2.txt 
$ 
相关问题