用于聚合各种属性的最佳技术堆栈

我们正在开发一个跨实体模型流图的平台。系统必须回答具有这些属性的多少实体坐在图上给定节点上的问题，节点上的流入量，节点上的流出量等。流数据以流的形式输入系统。我们正在考虑在时间段（例如5分钟）中打破流数据，并根据不同属性预先计算各种聚合，并将聚合存储在DynamoDB中以提供查询。用于聚合各种属性的最佳技术堆栈

至于这一点，我们正在评估以下选项：

EMR：将流数据为AWS-S3/DynamoDB运行的Map Reduce /蜂巢工作
把最近的数据到AWS - RDS，通过sql计算聚合数据库
Akka：这是一个通过参与者和消息传递构建分布式应用程序的框架。

如果有人从事类似用例或使用过上述任何技术，请告诉我哪种方法最适合我们的用例。

来源

2013-03-13 Swapnil

使用AWS红移最终的解决方案，驱动原因是的要求高速数据摄取，Redshift通过COPY命令提供。

Hadoop的构建是为了高效地存储数据，但是它不保证次要的摄取量，也不提供数据可用于MR作业的SLA，这是我们做的主要原因一般不用EMR或Hadoop。

来源

2015-08-24 05:15:13 Swapnil

我已经使用EMR处理S3中的数据......工作得很好。最好的部分是你可以旋转起来适合工作负载的各种大小的Hadoop簇。

你可能想看看Storm流处理

我也收集大数据工具，这里的列表：http://hadoopilluminated.com/hadoop_book/Bigdata_Ecosystem.html

来源

2013-03-13 23:08:58

在我们的例子中，计算可能发生频率高达1分钟，在这种情况下emr的引导时间成为问题 – Swapnil 2013-03-19 17:31:03

用于聚合各种属性的最佳技术堆栈

回答

相关问题