我有一个包含三个字段的数据集:id,特征和频率。我想要做的是找出一组给定的id,哪个特征具有最大的频率分布。我想要的结果是,如果我将id组分组为两个子组,使用该特征的频率中值,则我有两组彼此之间差异最大但尺寸大致相同的组。 我的第一个想法是,我计算每个特征的频率方差,并使用方差最高的特征。 给定一个数据库表,其看起来像这样: id | feature | frequency
---+------
当我试图处理使用一组随机数据作为熵源时,出现了数学/编程问题。在这种情况下,我使用Random.org的pregenerated random files作为熵源。像这样的原始数据是随机的零和1,并且可以作为随机字节(0-255)或更大的范围作为二的幂。我试图尽可能高效地使用这个随机源,因为它的长度是有限的,所以我不想使用比我需要的更大的集合。 如果你想要一个可以被256整除的范围(例如100到3