2017-08-27 48 views
0

我在Amazon Redshift上构建了几个非常大的数据表,它应该包含几个经常查询的属性和相关指标的数据。Redshift Composite Sortkey - 我们应该使用多少列?

我们使用均匀分布样式(“diststyle even”)使所有节点都参与查询计算,但我不确定sortkey的长度。

它绝对应该是复合 - 每个查询将使用日期和网络上的第一个过滤器 - 但在该级别之后,我有大约7个额外的相关因素可以查询。 我见过的所有例子都使用2-3个字段的复合排序键,最多4个。

我的问题是 - 为什么不使用包含表中所有关键字段的sortkey?有一个长的sortkey有什么缺点?

+0

那么,如果你建立一个涉及你的表中所有列的索引,它将占用更多的空间,如果你建立的索引只涉及一些列。所以如果空间是一个问题,那么这可能是你的问题的答案。 –

回答

0

如果您有几个排序键,VACUUM也将花费更长的时间。