2016-11-23 66 views
0

我们有一个合作伙伴为我们提供的非常大的压缩文件。我们希望在这些文件上运行MapReduce作业,但它们太大而无法下载到我们的某个节点进行检查。我们如何快速检查文件以了解如何编写MapReduce作业?如何在Amazon AWS S3中预览压缩对象?

回答

0

我们使用了下面的命令。当然,您需要根据文件的压缩格式适当调整解压缩步骤。你必须确保初始count足够大,足够你的压缩文件被管道输送到解压缩算法为它开始减压。在GZIP的情况下,它在文件的开头有一个标题。如果最初的count的大小不足以将标题获取到GZIP命令,则该命令将失败。另外,第二个count不需要等于第一个。实际读取的数据量将是第一个count除以压缩比率,但只要这两个数字都足够大,您将获得该文件的预览。

aws s3 cp s3://yer-bucket/path-to/yer/object.gz - | dd ibs=1024 count=1000 | gzip -cd | dd ibs=1024 count=1000