2013-05-09 80 views
2

我的数据看起来像每帧10万个数值(真实+二进制)(想想数组,即数组的一行中有1000万个元素),并且大约有100个帧/第二。一种时间序列。数值数据 - 高容量+高速度+快速检索

对我的挑战是:

(1)存储 - 数据

(2)数据的处理速度

(3)实时分析

是卡桑德拉合适为了这?任何人都可以在应用程序体系结构(Think hadoop,cassandra,kafka,storm等)上引导我一点,这将在上面的场景(从非常高的层面来看)中解决。

我知道我问过一些很大的东西。在实验之前,我需要一个方向。

回答

2

作为存储引擎或处理数据的速度,Cassandra和Hadoop将以超群的色彩通过。

现在进入实时部分,Cassandra可以为您提供接近实时的解决方案,其中仅Hadoop是不够的(批量性质,map-reduce作业)。您可以使用Storm与Hadoop一起尝试,这会给您提供接近实时的功能,但会增加解决方案的复杂性(使用喷嘴和螺栓)。也可以尝试一些规则引擎,这将为您提供实时解决方案的额外优势。

+0

感谢您的分享。您能否更详细地说明您将如何实时集成Hadoop + Storm?你是否建议有两个独立的部分 - 实时风暴和Hadoop的批处理? – Suman 2013-05-13 21:36:09