2016-09-23 91 views
0

背景存储文件到S3:本地文件VS HDFS

简单的年龄文件上传用java有轻微的扭曲

S3不支持流(据我所知),这样的数据需要到S3的老问题在上传之前将其分组为适当大小的文件。

在创建上面提到的这些临时文件有尽可能位置在一些指定的目录

  • 本地HDFS中有关

    1. 本地一些选项(如果这样的事情是可能的,我不知道,从Hadoop的
    2. 在Hadoop集群甚至H)向HDFS

    问题

    1. 哪一个可能会更快?
    2. 使用HDFS(本地或集群)还是本地FS有优势,HDFS在本质上与S3格式更接近?

    技术和基础设施

    EC2,LINUX,JAVA

  • 回答

    1

    如果你有足够的本地磁盘空间,只是做在本地。否则,您可以将数据合并到HDFS所需的存储中,然后上载它们。但是,HDFS不应该是您在这里的第一个度假胜地。

    +0

    请问我为什么不推荐HDFS? – Confused

    +0

    HDFS并不是真正为此设计的,如果可能的话,在磁盘上执行所有文件操作会更快。 –

    +0

    是的,最终使用本地FS并上传到S3最终压缩文件 – Confused