1
我需要使用Hadoop/EMR处理存储在Amazon S3和Amazon Glacier中的数据,并将输出数据保存在例如RDBMS中。 Vertica我如何将Amazon Glacier/S3与hadoop map reduce/spark结合?
我是大数据中的总noob。而且我只经历了几次关于地图缩减和sparx的在线会议和ppt。并为学习目的创建了几个虚拟地图缩减代码。
到目前为止,我只有一些命令让我可以将数据从S3导入到Amazon EMR中的HDFC,并在处理后将它们存储在HDFS文件中。
因此,这里是我的问题:
难道真的强制执行首次减少地图,还是有使用S3 directly.`
- 的方式同步前从S3到HDFC数据
我怎样才能让Hadoop的访问亚马逊冰川data`
最后,我怎么能输出存储Database.`
欢迎任何建议/引用。