识别更多可压缩数据集,这可能是这里的问题的重复:Predict Huffman compression ratio without constructing the tree通过观察输入分布
所以基本上,我有两个数据集具有相同的变量,但不同的概率概率分布。现在,有没有办法通过查看变量分布,我可以在某种程度上自信地说数据集在通过霍夫曼编码实现后会获得比另一个更高的压缩比?
我遇到的解决方案之一是使用条件熵计算上限,然后计算平均代码长度。在使用上述方法之前,我还可以探索其他方法吗?
非常感谢。
为什么你会尽量避免创建树?创建并计算压缩数据的大小(没有实际编码它)的速度非常快,在您拥有该树之后是O(n)。 O(n logn)很难被压缩比估计得很好。 – MrSmith42
是的,我同意,我很可能也会这样做,但是假设有一种方法可以对树的深度或树的节点数进行很好的估计,以估计平均代码长度。 –