1
我希望能够在HDFS上存储数百万个小文件(二进制文件 - 图像,exe等)(〜1Mb),我的要求基本上是能够查询随机文件而不是运行MapReduce作业。 我的主要问题是Namenode内存问题,而不是MapReduce映射问题。HDFS小文件设计
所以我的选择是:
- HAR文件 - 骨料小文件,只比他们的HAR他们节省://路径在另一个地方
- 序列文件 - 添加他们,因为他们进来,这更适合于MapReduce作业,所以我几乎消灭它
- HBase的 - 保存小文件,HBase的是在几篇文章中所描述的谷歌
我猜我阿斯金的另一个解决方案g如果有什么我错过了?我可以通过将二进制文件添加到大Avro/ORC/Parquet文件来实现我所需要的吗?然后通过名称或从Java /客户端程序散列来查询它们?
感谢,