我正在研究用于传感器数据和预测分析的大数据解决方案。 我是大数据新手,并且阅读了关于lambda架构的内容。 我曾考虑将Cassandra数据库与Hadoop一起使用。 Cassandra是一个高可用性和分区容忍数据库,Hadoop hdfs是用于大型分析作业的文件系统。具有cassanda和hadoop的大数据lambda体系结构
如果我从物联网设备接收数据,数据应该先保存在Hadoop中然后保存到Cassandra中? lambda体系结构在批处理层中包含Hadoop,接收数据并将其发送到服务层到nosql数据库。
为什么数据应该是Hadoop中的第一个? 以及如果Hadoop包含原始数据,在Cassandra中存储了哪些数据?
此时流层不在焦点。 我只想了解一起使用Cassandra和Hadoop。
Hadoop中的数据用于大型分析,在cassandra中应该有我的Hadoop作业的结果。
这是否意味着我可以存储我的原始数据?如果不仅大型分析工作对我的应用程序有用,我可以将我的原始数据存储在Cassandra和Hadoop中?
例
INSERT INTO temperature(weatherstation_id,event_time,temperature)
VALUES (’1234ABCD’,’2013-04-03 07:02:00′,’73F’);
如果这是我的插件和我有成千上万的人在一个单一分钟。 我想做一些大型工作,我使用Hadoop?
但我也需要每一个数据行为我的应用程序没有分析。 Cassandra也在储存它?
您想要实时显示给用户的数据需要在cassandra中。 –
所以我也可以安全我的数据+时间戳在两个?此外,我有可能对大数据集进行分析,并将结果传递给cassandra在不同的表中? – Khan
如何从Hadoop的传递到Cassandra的数据,如果我不想对原始数据的分析?还是应该将数据传递给两者? – Khan