2010-09-27 102 views
0

我在这里运行一个小测试/ poc。快速查询hbase

我需要每天将数百万行加载到数据库中。而且它不是日志文件数据,我用逗号分隔的行(列)恰好适合关系数据库。

加载后,我需要一个非常快速的搜索机制。看一下谷歌的实施bigtable和周围的结构,我原本以为使用hbase集成的hive。 Hive因为它的查询能力。加载工作正常,比RDBMS性能更好。然而,查询瓶颈,这也是首先寻找RDBMS替代品的原因,也是蜂巢式的。

用于查询的测试配置单元并非真正出色的性能。也许我需要寻找替代品..

还有别的吗?我可以放在hbase之上的任何其他工具/解决方案/库?甚至没有hbase? (我看的HBase作为替代RDBMS,对DIST计算移动)

建议请...

回答

3

如果你想要一般的搜索功能,你可以考虑像SolrElasticSearch这样的解决方案。如果您为您需要的查询(关键设计)准备数据而非一般搜索,HBase会很好地工作。你也可以看看结合Solr和HBase的Lily

+0

谢谢,solr帮了很大忙。 – Gyan 2012-04-12 13:29:52

1

你的问题是,蜂巢运行大多数的查询作为本质上是较慢的MapReduce程序。

如果您编写自己的程序来运行适当的扫描然后自己分组,hbase可以非常快。如果你想要一个查询语言,尽管目前还没有我知道的解决方案。

很难多说,因为你对数据的描述以及你想运行的查询类型是非常通用的。

0

你看过solr或lucene类型的解决方案吗?它不是一个SQL解决方案,但查询语言对于某些类型的用途非常灵活,而且速度非常快。还有一些方法可以将其分布到服务器集群中,以提高性能,扩展索引的大小或可以处理的查询数量,或者同时缩小索引的大小。

1

对于这个行数使用MySQL是不可想象的。你可以用一些测试数据尝试一下,看看你是否可以摆脱它。