2015-12-22 61 views
0

近三天,我一直在寻找2015年的解决方案,将Cassandra整合到Hadoop上,并且网络上的许多资源已过时或从网络中消失Datastax Enterprise不提供免费的解决方案来实现此类集成。如何整合Cassandra与Hadoop以充分利用Hive

这样做有什么选择?我想使用Hive查询语言从我的Cassandra获取数据,我认为第一步是将Cassandra与Hadoop集成。

回答

1

最简单的(也是付费选项)是使用C *的Datastax Enterprise打包与Hadoop + Hive。这提供了一个用C *自动连接和注册Hive表,并在需要时包含和设置Hadoop执行平台。 http://www.datastax.com/products/datastax-enterprise

第二种最简单的方法是使用Spark代替。 Spark Cassandra连接器是开源的,允许HiveQL用于访问C *表。这是在Spark上作为执行平台而不是Hadoop运行的,但具有类似(如果不是更好的话)性能。

有了这个解决方案,我会站在一个独立的Spark Cluster(因为您没有现有的hadoop infra),然后使用spark-sql-thrift服务器对C *表运行查询。 https://github.com/datastax/spark-cassandra-connector

还有其他的选择,但这些都是我最熟悉的人(和利息的通知冲突,还开发了:d)