2016-11-08 90 views
0

理论问题,Impala GROUP BY分区列

可以说我有四列的表:A,B,C,D。 A和D的值相等,表格按列A分区。

表现明智,如果我发出此查询,它会产生什么影响 SELECT SUM(B)GROUP BY A; or this one: SELECT SUM(B)GROUP BY D;

换言之,我在问,在分区列上使用GROUP BY会有什么性能增益吗?

感谢

回答

0

通常有性能提升,如果您使用的过滤器(WHERE在你的SQL子句)

,因为这两个查询使用“全表扫描”,它不应该有很多的分区列两个查询之间的差异。如果这些分区是很多分区(如大约50K),则可能会看到差异,并且往往会降低查询性能,但通常情况并非如此。