2010-01-16 69 views
10

我有一个应用程序需要针对不同级别的聚合进行分析,这就是OLAP工作负载。我也想经常更新我的数据库。任何可扩展的OLAP数据库(Web应用程序规模)?

例如,这里是我的更新是什么样子(架构是这样的:时间,DEST,源IP,浏览器 - >访问次数)

(15:00-1-2-2010, www.stackoverflow.com, 128.19.1.1, safari) --> 105 

(15:00-1-2-2010, www.stackoverflow.com, 128.19.2.1, firefox) --> 110 

... 

(15:00-1-5-2010, www.cnn.com, 128.19.5.1, firefox) --> 110 

然后我要问什么是WWW的总访问.stackoverflow.com从上个月的Firefox浏览器。

我知道Vertica系统可以以相对便宜的方式来执行此操作(性能和可扩展性明智,但不是成本明智的)。我在这里有两个问题。

1)有没有一种开源产品可以用来解决这个问题?特别是,Mondrian系统的工作效果如何? (可伸缩性和性能) 2)是否有HBase或Hypertable基础解决方案(显然,裸体HBase/Hypertable不能这样做)? - 但是如果有一个基于HBase/Hypertable的项目,可扩展性可能不会成为IMO的问题)?

谢谢!

+0

您的预期数据量是多少?每天点击100万次?千万? – 2010-01-21 09:23:42

回答

2

您可以下载greenplum数据库的免费版本(单节点版本)。我没有尝试过,但我认为/猜测它是一个强大的野兽。这里阅读:http://www.dbms2.com/2009/10/19/greenplum-free-single-node-edition/

另一个选择是MongoDB,它是快速和免费的,你可以用JavaScript编写MapReduce函数来做分析。

我在这里的声望是低到添加一个超级链接到mongodb,所以你必须谷歌。我只能为每个帖子添加一个超链接。

+0

greenplum不是免费的 – charlie111 2010-01-19 06:57:54

+0

单节点版本是免费的。 – AABBCCDD 2010-01-19 18:58:19

+0

澄清:Greenplum SNE“像啤酒一样自由”。您不必为此付钱,但是您可以部署它的服务器的大小和数量受到许可限制,并且未公开发布源代码。 – goodside 2011-09-22 14:03:37

0

是您的数据模型比这更复杂?如果不是,你可能会为它编写自定义代码。然后你可以真正调整到你的数据。真正的产品必须提供很多灵活性,因此需要很多复杂的工作来实现这一点,并因此而受到影响。

你的问题在一个方面不明确:当你谈论可扩展性时,你的意思是什么?你是从很多网站收集数据,但只有有限的查询用户,或者你也有很多用户?这种情况导致了一种截然不同的模式。

+0

我在这里看不到数据模型。原帖希望在HBase的顶部,等找到预先计算(立方体格子)溶液 你正在谈论的MapReduce,它扩展了什么蜂巢是干什么的,但本质上它是一个批处理模式 – 2011-02-05 09:53:19

+0

没有,我正在谈论编写代码和使用平面文件。当然取决于数据模型和实体的数量。 – 2011-02-05 09:53:19

相关问题