如何整合Cassandra与Hadoop以充分利用Hive

近三天，我一直在寻找2015年的解决方案，将Cassandra整合到Hadoop上，并且网络上的许多资源已过时或从网络中消失Datastax Enterprise不提供免费的解决方案来实现此类集成。如何整合Cassandra与Hadoop以充分利用Hive

这样做有什么选择？我想使用Hive查询语言从我的Cassandra获取数据，我认为第一步是将Cassandra与Hadoop集成。

来源

2015-12-22 Vahid hashemi

最简单的（也是付费选项）是使用C *的Datastax Enterprise打包与Hadoop + Hive。这提供了一个用C *自动连接和注册Hive表，并在需要时包含和设置Hadoop执行平台。 http://www.datastax.com/products/datastax-enterprise

第二种最简单的方法是使用Spark代替。 Spark Cassandra连接器是开源的，允许HiveQL用于访问C *表。这是在Spark上作为执行平台而不是Hadoop运行的，但具有类似（如果不是更好的话）性能。

有了这个解决方案，我会站在一个独立的Spark Cluster（因为您没有现有的hadoop infra），然后使用spark-sql-thrift服务器对C *表运行查询。 https://github.com/datastax/spark-cassandra-connector

还有其他的选择，但这些都是我最熟悉的人（和利息的通知冲突，还开发了：d）

来源

2015-12-22 23:00:58 RussS

如何整合Cassandra与Hadoop以充分利用Hive

回答

相关问题