我们正在开发一个跨实体模型流图的平台。系统必须回答具有这些属性的多少实体坐在图上给定节点上的问题,节点上的流入量,节点上的流出量等。流数据以流的形式输入系统。我们正在考虑在时间段(例如5分钟)中打破流数据,并根据不同属性预先计算各种聚合,并将聚合存储在DynamoDB中以提供查询。用于聚合各种属性的最佳技术堆栈
至于这一点,我们正在评估以下选项:
EMR:将流数据为AWS-S3/DynamoDB运行的Map Reduce /蜂巢工作
把最近的数据到AWS - RDS,通过sql计算聚合数据库
Akka:这是一个通过参与者 和消息传递构建分布式应用程序的框架。
如果有人从事类似用例或使用过上述任何技术,请告诉我哪种方法最适合我们的用例。
在我们的例子中,计算可能发生频率高达1分钟,在这种情况下emr的引导时间成为问题 – Swapnil 2013-03-19 17:31:03