我正在使用Cassandra来存储我的数据和配置单元以处理我的数据。 我有5台机器上设置了cassandra和2台机器作为分析节点(其中配置单元运行) 因此,我想问的是,是否在两台机器(分析节点)上配置了映射减少并将数据带到那里或它将进程/计算移动到5个cassandra节点,并在这些机器上处理/计算数据(我知道在hadoop中,进程转移到数据而不是数据进行处理)。cassandra数据库上的Hadoop
8
A
回答
16
如果您有兴趣与Hadoop和Cassandra结婚 - 第一个链接应该是围绕这个概念构建的DataStax公司。 http://www.datastax.com/ 他们用HDFS替换cassandra来构建和支持hadoop。 在尽我的理解 - 他们有数据局部性:http://blog.octo.com/en/introduction-to-datastax-brisk-an-hadoop-and-cassandra-distribution/
有一个关于Hadoop的& Cassandra的数据局部性好的答案,如果你运行的MapReduce对Cassandra的 Cassandra and MapReduce - minimal setup requirements
关于你的问题 - 有一个tradeof : a)如果在单独的节点上运行Hadoop/Hive,则会丢失数据本地及其数据吞吐量,这受限于网络带宽。 b)如果您在与cassandra运行相同的节点上运行hadoop/Hive - 您可以获取数据位置,但在hive查询后面执行MapReduce处理可能会阻塞您的网络(以及其他资源),从而影响cassandra的服务质量。
如果您的cassandra集群的性能至关重要,我的建议是将单独的配置单元节点。
如果您的cassandra主要用作数据存储并且不处理实时请求 - 那么在每个节点上运行配置单元将提高性能和硬件利用率。
相关问题
- 1. 在AWS上保护Cassandra数据库
- 2. Giraph,Hadoop,Spark和Cassandra
- 3. Cassandra(BI数据库数据复制)
- 4. 使用hadoop读取/写入Cassandra的数据
- 5. Django with cassandra - 没有cassandra数据库的模式
- 6. Cassandra vs HBase for Hadoop工作
- 7. Apache Cassandra磁盘上的数据存储
- 8. cassandra数据库用jmeter测试
- 9. Cassandra VS Dynamo数据库主键选择
- 10. Cassandra数据库,哪个python接口?
- 11. 如何复制Akka Persistence Cassandra数据库
- 12. 我该如何停止cassandra数据库?
- 13. 图表数据库引用cassandra表格
- 14. 同步elasticsearch&cassandra与postgres数据库
- 15. hadoop上的分布式数据分配
- 16. 无法在GCP上连接cassandra数据库(谷歌云)
- 17. Cassandra数据库中的DateType列元数据列
- 18. Hadoop/Cassandra - 如何存储和分析数千个传感器的数据?
- 19. 结合Hadoop MapReduce和数据库查询
- 20. ETL与HADOOP数据库Hbase关联吗?
- 21. 如何使用BulkOutputFormat将数据从Hadoop Map函数传输到Cassandra?
- 22. Cassandra数据聚合
- 23. 实时数据Cassandra的数据建模
- 24. Cassandra中的数据建模
- 25. cassandra的数据组织
- 26. Cassandra中的数据复制
- 27. cassandra中的数据模型
- 28. Cassandra数据库表中的数字表示什么?
- 29. Hadoop和Cassandra集成如何到
- 30. 如何将Cassandra与Hadoop集成
非常感谢您的帮助 – 2013-02-12 11:15:48