2011-09-12 34 views
1

我对他们如何计算“每个符号的平均位数”有些困惑。这是通过取每个字符的概率并将其乘以像常规熵或其他方式的lg(1 /概率)来计算的?计算数据压缩的熵

另外,如果这是真的,他们怎么知道信件的平均出现是什么?

回答

2

我真的不应该回答这个问题,因为我不知道很多关于压缩,但我可以说:

  • 如何界定“每个符号的比特”?

你是对的;它的规则熵定义为-Σp·log(p)。请注意,这实际上并不是字符的频率,而是频率的消息。即,下面的一组消息

{ abcdefghijklmnopqrstuvwxyz } 

看起来不错分析字母的字母,但具有0

  • 熵,你怎么能知道一个字母的平均发生的是什么?

从理论上讲,除非您知道生成消息的确切过程,否则无法确切知道。你必须使用一些启发式。就像大量采样和计数一样,或者寻找你知道的模式是冗余的迹象。如英文文本等

+0

感谢您的回应:-)对不起,如果这是一个愚蠢的问题买了这个消息的熵是0? – rubixibuc

+0

@rubixbuc这组消息的熵值为零,因为其中只有1条消息。 – Owen