2016-11-14 51 views
0

想知道,teradata中的SAMPLE是否以统一的概率选择(即给每行选择相同的概率)。例如:teradata uniform中的示例命令

select * from employee_table sample 8; 

另外将返回的数据被保证是每个执行

回答

2

每个SAMPLE是随机的后不同,但使用的默认值不是真正简单的样品。所有AMP进行通信以决定将由哪个AMP返回多少行,即默认的SAMPLE是n个分开的样本的UNION,每个AMP一个。很难注意,因为数据是散列分布的,但是具有NUPI的偏斜表可能对某些行被抽样的概率较高。

当您需要一个真正的随机样本时,您必须使用SAMPLE RANDOMIZED ALLOCATION选项,现在所有AMP中的所有行都具有相同的概率。

但是,因为它是随机的,当然不能保证每个样本中都有不同的行。