2016-07-14 234 views
0

我想在HDFS(Hadoop文件系统)上保存图像文件(如jpeg,png等)。我尝试了两种方式:在HDFS中保存图像文件(jpeg,png)的输入格式

  1. 保存,因为它是图像文件(即在相同的格式)到HDFS使用put命令。完整的命令是:hadoop fs -put /home/a.jpeg /user/hadoop/。它被成功放置。
  2. 将这些图像文件转换为Hadoop的Sequence File格式&然后使用put命令保存在HDFS中。

我想知道应该使用哪种格式保存在HDFS中。
什么是使用Sequence File格式的优点。我知道的一个优点是它是可拆分的。还有其他吗?

回答

0

与HDFS存储的块大小相比,图像尺寸非常小。小文件的问题是对处理性能的影响,这就是为什么您应该使用序列文件,HAR,HBase或合并解决方案。看到这两个线程更多信息。

effective way to store image files

How many files is too many on a modern HDP cluster?

处理1MB的文件具有开销了。因此,处理128个1Mb的 文件将花费您128倍的“管理”开销,而处理1个128Mb文件的文件则需要 。以纯文本格式,该1Mb文件可能包含1000 记录。 128 Mb文件可能包含128000条记录。

相关问题