2012-07-06 67 views
0

我有数百万的图像存储在hadoop的hdfs中。我想建立这些图像的索引。如何获得这些图像的像素RGB值?我是hadoop中的新成员,hadoop中的图像格式与原始图像二进制格式不同。另一个问题是,我应该使用hadoop中的序列文件将巨大的图像打包成大文件以提高效率?非常感谢。如何在hadoop中获得像素rgb值?

回答

0

我可部分回答这个问题。

另一个问题是我应该使用sequencefile Hadoop中收拾的巨大图像,以一个大文件的效率?

取决于单个文件的大小。如果单个文件真的很大,那么整合它们可能不会真的有帮助,反之亦然。

入住这query上SO了解更多详情。

0

如果你有额外的存储空间和效率对你很重要,我肯定会用SequenceFile去。 Hadoop将会为你分割文件。我们遇到了一个案例,我们正在从图像文件中提取数据,类似于您正在做的事情。在我们的例子中,我们提取了在发现系统中提取的元数据,以便我们的图像文件可以在群集外搜索。在这种情况下,因为效率对我们来说并不是什么大问题,所以我们只是单独处理这些文件,以确保它们不会分裂。这样另一个系统可以通过http重新获取源文件。

相关问题