2016-06-14 70 views
1

我需要使用Hadoop/EMR处理存储在Amazon S3和Amazon Glacier中的数据,并将输出数据保存在例如RDBMS中。 Vertica我如何将Amazon Glacier/S3与hadoop map reduce/spark结合?

我是大数据中的总noob。而且我只经历了几次关于地图缩减和sparx的在线会议和ppt。并为学习目的创建了几个虚拟地图缩减代码。

到目前为止,我只有一些命令让我可以将数据从S3导入到Amazon EMR中的HDFC,并在处理后将它们存储在HDFS文件中。

因此,这里是我的问题:

  • 难道真的强制执行首次减少地图,还是有使用S3 directly.`

  • 的方式同步前从S3到HDFC数据

    我怎样才能让Hadoop的访问亚马逊冰川data`

  • 最后,我怎么能输出存储Database.`

欢迎任何建议/引用。

回答

1

EMR集群能够读取/写入S3,因此不需要将数据复制到集群。 S3有一个Hadoop FileSystem的实现,所以它可以与HDFS大致相同。如果您的MR/Spark作业无法直接访问Glacier中的数据,则必须首先从冰川下载数据,本身就是一个漫长的过程。

检出Sqoop在HDFS和DB之间抽取数据