2010-03-01 90 views
0

因此,我目前正在开发一个项目,涉及收集和存储一些巨大的数据集(就我以前的工作而言)。数据本质上包含元信息,然后是实际值(其中值随时间呈现趋势)。跨多个物理节点划分表

元信息本身是比较大的,但没什么大的,我可能会说它将在未来几年增长10-50万行的大小。这对我来说似乎是可管理的,而且一个强大的SQL Server应该足以提供对这些数据的快速访问(如果数据索引良好,并且数据非常容易索引,并且界限非常清晰)...

但是,趋势数据是完全不同的故事。在一年内,我们每天都很容易拉动4000万到5000万行,并且在未来3年或4年内每年可以实际翻倍。

这个趋势数据还有非常明确的边界,可以将其分割成更多可管理的大小块。我希望能够建立某种分区机制,将这些数据分布到多个物理数据库节点上。数据基本上都包含在一张表中。我研究了SQL Server表分区,但找不到一种方法将数据分散到多个服务器上。

我的问题是是否有一些“相对简单”的方式实现多个物理节点的表分区。我也花了一些时间来看看Sql Server PDW,但它很难在网上找到信息,我不想追求,直到我确定没有简单的方法来实现这种使用构建的功能的解决方案到SQL Server中。

任何意见将不胜感激...

回答

1

我没有这方面的专家,但我相信你可以寻找的是数据库的“分片”。对分片here的问题和好处有一个有趣的分析。

最终,“分片”设计的实施可能会非常昂贵,但是如果您的数据在单个数据库中无法管理,那么这可能是一个好的解决方案。

还有它包括的软件列表,支持碎片(如Hibernate的ORM)

+0

感谢您的答复,不完全是我所期待的的Wikipedia页上的少量信息,但我我会给你一个+1的好阅读...我想我可能不得不查看分布式键值存储或其他东西,仅适用于趋势表,应该比SQL Server更容易扩展 – LorenVS 2010-03-01 21:32:26