2009-10-23 62 views
4

我建立了一些报告工具和我们的网站(相当于一个中型网站,每天收到几百万的浏览量),如果有什么好的自由/开源想知道数据仓库系统在那里。免费数据仓库系统 - 特别是用于数据存储

具体来说,我正在寻找的东西只存储数据 - 我计划建立一个自定义前端/ UI它,因此它表明我们关心的信息。不过,我不想为此建立一个定制的数据库,虽然我很确定一个SQL数据库在这里不起作用,但我不确定要准确使用什么。任何指向有用的文章也将不胜感激。

编辑:我应该提到 - 我简要介绍过的一个数据库是MongoDB。看起来它可能有效,但他们的“使用案例”特别提到数据仓库为“不太合适”:http://www.mongodb.org/display/DOCS/Use+Cases。另外,它似乎并不专门针对数据仓库。

+0

你想在你的仓库中存放什么样的数据? – 2009-10-23 22:34:59

+0

这将用于我们自己的分析。一些典型的东西,如URL访问,页面加载时间等,以及一些特定于我们网站的内容(用户ID,用户活跃的城市,上次登录等) – 2009-10-23 22:55:26

+0

大多数开源DW/BI设备依赖在开源DBMS上。为什么你很确定一个SQL数据库在这里不起作用? – 2009-10-25 23:24:05

回答

5

http://www.hypertable.org/可能是你在找什么是(和我被你上面的描述这里发生)的东西,存储大量与规范化记录的数据。即访客日志。

Hypertable基于谷歌的bigTable项目。 请参阅http://code.google.com/p/hypertable/wiki/PerformanceTestAOLQueryLog的基准测试

您失去了基于SQL的dbs的关系功能,但是您在性能上获得了很多。你可以很容易地使用hypertable来存储每小时数百万行(硬盘空间的承受能力)。

希望帮助

+0

谢谢 - 这是我正在寻找的那种东西。 – 2009-10-28 06:50:23

+0

看起来很有趣,但它那种引起他们表现出与美国在线的数据,而不是从www.tpc.org标准化测试统计警告标志(他们有数据集非常类似AOL的。) – alecco 2009-11-01 07:02:16

3

我可能无法正确理解问题 - 但是,如果您有时间(重新)访问Kimball的“数据仓库工具包”,您会发现基本DW所需的全部内容都是普通的SQL数据库,换句话说,您可以使用MyISAM为存储引擎构建一个体面的DW与MySQL。问题只在于信息的期望粒度 - 你想保留多久。如果您的报告大多数是定期报告,并且您实施报告存储或缓存,则无需存储预先计算的聚合(不需要立方体)。换句话说,带有缓存报告的Kimball明星在许多情况下可以提供不错的表现。 您还可以查看社区版“Pentaho BI套件”(开源),以快速入门ETL,分析和报告 - 并在进入自定义开发之前尝试一下评估性能。 虽然这可能不是您所期望的,但可能值得考虑。

2

除了Hypertable的麦克的答案,你可能想看看Apache的Hadoop项目:

http://hadoop.apache.org/

他们提供了一些可能有用的工具为您的应用程序,包括HBase,另一个BigTable概念的实现。我想象一下,你可能会发现他们的mapreduce实现也很有用。

+0

更具体[http://hadoop.apache.org/hbase/Hbase],它运行在hadoop内核上 – 2009-10-28 23:26:00

0

我看到了类似的问题和使用普通的MyISAM与http://www.jitterbit.com/作为数据访问层的思想。 Jitterbit(或其他免费工具)似乎对于这种转换非常好。

希望这会有所帮助。

3

Pentaho Mondrian

  • 开源
  • 使用标准的关系型数据库
  • MDX(认为数据透视表)
  • ETL(通过烧水壶)

我用这个。

2

这一切都取决于数据和您打算如何访问它。 MonetDB是来自最具革命性的数据库技术团队的面向列的数据库引擎。他们just got VLDB's 10-year best paper award。数据库是开源的,有plenty of reviews online赞美他们。

也许你应该看看TPC,看看,他们的测试问题的数据集你的情况和工作从那里最佳匹配。

还要考虑并发的需求,它增加了一个很大的开销,任何种类的方法,有时是不是真的需要。例如,您可以预先摘要某些摘要或索引数据,并且只有那些受高度并发保护的摘要或索引数据。分析您的数据查询是以下步骤。

关于SQL,我不喜欢,要么,但我不认为这是聪明的排除发动机只是因为前端的语言。

0

很多人只使用MySQL或Postgres的:)

相关问题