information-theory

    0热度

    2回答

    我正在寻找编码user_ids在长长的通话记录列表。占用最多空间的这些记录的部分是呼叫者和接收者的符号。我将创建一个映射,将最活跃的调用者分配更短的符号---这将有助于保持文件的整体大小(并因此减少I/O时间)。 我事先知道多少次的每个符号将被用于---换句话说,我所知道的相对概率分布。此外,生成的代码是“前缀无关”的,例如霍夫曼代码并不重要。那么什么是最好的编码方案,即能够提供最大压缩率和快速实

    4热度

    3回答

    为什么在决策树分支中使用Shannon熵度量? 熵(S)= - P(+)的日志(P(+)) - P( - )的日志(P( - )) 我知道这是没有的量度。编码信息所需的位数;分布越均匀,熵越多。但我不明白为什么它经常用于创建决策树(选择分支点)。

    6热度

    3回答

    是否有任何论文描述了从编译程序推断子程序的任何算法/技术?换句话说:有没有一种算法来查找在程序中出现多次的代码块?这些块可以将指令重新排序(当然,程序行为没有改变),以便更有可能找到匹配。 这个过程可以看作是由编译器完成的子例程内联的对立面,以避免调用,但增加了二进制大小。 在我看来,这是一个非常困难的理论问题。

    6热度

    1回答

    我有一个方形矩阵,它表示数据集中共现事件的频率计数。换句话说,这些行表示特征1的所有可能的观察值,并且这些列是特征2的可能观察值。单元格(x,y)中的数目是特征1被同时观察为x的次数特征2是y。 我想计算矩阵中包含的互信息。 MATLAB有一个内置的information函数,但它需要2个参数,一个用于x,另一个用于y。我将如何操作这个矩阵来获得它期望的参数? 或者,我写了自己的互信息函数,它需要

    0热度

    1回答

    我有一些英文书写文本并计算它的熵。然而我意识到基于LZ方法的压缩算法在熵给定的限制下压缩得非常少。 这是由于模拟英文文本的信息来源具有记忆。 所以压缩的边界由熵率给出,而不是由该熵的熵给出。 我看到了带有记忆的信息源熵率的定义,但想知道如何用英文写的文本的算法或伪代码计算熵率。 任何想法? 感谢您的帮助。

    12热度

    5回答

    Jeff Atwood最近在推特上发布了一篇CodeReview帖子的链接,他想知道社区是否可以改进他的“calculating entropy of a string”代码片段。他解释说,“我们正在计算堆栈溢出中几个地方的字符串的熵作为低质量的指示符。” 他的方法的要点似乎是如果算上字符串中的唯一的字符数,这意味着熵(从PieterG's answer采取代码): int uniqueChara

    0热度

    1回答

    如何可以生成长度Ñ的二元结果的流与相等数量的0的和1的,但有成对的结果的偏置频率,即给定的变换率ķ(freq(01) + freq(10))/(freq(00) + freq(11)) = k

    9热度

    3回答

    我有一套随机生成的形式图,我想计算每一个的熵。同样的问题换句话说:我有几个网络,并且想要计算每个网络的信息内容。 下面是含有图熵的正式定义两个来源: http://www.cs.washington.edu/homes/anuprao/pubs/CSE533Autumn2010/lecture4.pdf(PDF) http://arxiv.org/abs/0711.4175v1 我寻找的代码采用的

    2热度

    1回答

    在将相位空间分为Alpha分区时,它的目的是要找出该分区的性能如何。从这个角度来看,我们需要找出源熵。现在,我搜索了很多,但找不到熵源是什么。任何人都可以解释: 香农的熵如何与源熵不同以及如何实现源熵? 如何计算通道容量?以下是用于计算数据x的香农熵的代码。如果修改以下代码以计算通道容量,我将不胜感激。 x = x(1:end); if nargin == 1 p = f

    2热度

    1回答

    当使用大约3000字的大文档计算两个词之间的MI时,当我计算文档中第一个不会重复的词的概率时,它非常低且相同第二个字;这个低值影响联合概率= p(x) * P(y),导致相互信息的值为零或NaN。我怎样才能避免这种情况?