Q

我如何将Amazon Glacier/S3与hadoop map reduce/spark结合？

2016-06-14 70 views 1 likes

1

我需要使用Hadoop/EMR处理存储在Amazon S3和Amazon Glacier中的数据，并将输出数据保存在例如RDBMS中。 Vertica我如何将Amazon Glacier/S3与hadoop map reduce/spark结合？

我是大数据中的总noob。而且我只经历了几次关于地图缩减和sparx的在线会议和ppt。并为学习目的创建了几个虚拟地图缩减代码。

到目前为止，我只有一些命令让我可以将数据从S3导入到Amazon EMR中的HDFC，并在处理后将它们存储在HDFS文件中。

因此，这里是我的问题：

难道真的强制执行首次减少地图，还是有使用S3 directly.`
的方式同步前从S3到HDFC数据
我怎样才能让Hadoop的访问亚马逊冰川data`
最后，我怎么能输出存储Database.`

欢迎任何建议/引用。

2016-06-14 Sandeep Kumar Roy

A

回答

1

EMR集群能够读取/写入S3，因此不需要将数据复制到集群。 S3有一个Hadoop FileSystem的实现，所以它可以与HDFS大致相同。如果您的MR/Spark作业无法直接访问Glacier中的数据，则必须首先从冰川下载数据，本身就是一个漫长的过程。

检出Sqoop在HDFS和DB之间抽取数据

2016-06-14 14:11:14

相关问题