0

我们正在开发一个跨实体模型流图的平台。系统必须回答具有这些属性的多少实体坐在图上给定节点上的问题,节点上的流入量,节点上的流出量等。流数据以流的形式输入系统。我们正在考虑在时间段(例如5分钟)中打破流数据,并根据不同属性预先计算各种聚合,并将聚合存储在DynamoDB中以提供查询。用于聚合各种属性的最佳技术堆栈

至于这一点,我们正在评估以下选项:

  • EMR:将流数据为AWS-S3/DynamoDB运行的Map Reduce /蜂巢工作

  • 把最近的数据到AWS - RDS,通过sql计算聚合数据库

  • Akka:这是一个通过参与者 和消息传递构建分布式应用程序的框架。

    如果有人从事类似用例或使用过上述任何技术,请告诉我哪种方法最适合我们的用例。

回答

0

使用AWS红移最终的解决方案,驱动原因是的要求高速数据摄取,Redshift通过COPY命令提供。

Hadoop的构建是为了高效地存储数据,但是它不保证次要的摄取量,也不提供数据可用于MR作业的SLA,这是我们做的主要原因一般不用EMR或Hadoop。

0

我已经使用EMR处理S3中的数据......工作得很好。最好的部分是你可以旋转起来适合工作负载的各种大小的Hadoop簇。

你可能想看看Storm流处理

我也收集大数据工具,这里的列表:http://hadoopilluminated.com/hadoop_book/Bigdata_Ecosystem.html

+0

在我们的例子中,计算可能发生频率高达1分钟,在这种情况下emr的引导时间成为问题 – Swapnil 2013-03-19 17:31:03