2009-07-15 65 views
8

我使用mutual information gain作为分裂函数来构建二进制分类树。但是由于训练数据偏向于几个类别,因此建议每个训练样例的逆类别频率加权。使用熵的加权决策树

如何加权训练数据?在计算估计熵的概率时,我是否需要加权平均值?

编辑:我想用于与所述权重熵的表达式。

+0

是不是你的加权因子是逆类? – 2009-07-17 20:05:34

+0

是的,正如在问题中提到的那样,“建议按照逆类别频率对每个训练样例进行加权。” – Jacob 2009-07-17 20:08:29

回答

4

您引用的维基百科文章进入加权。它说:

加权变体
在的互信息的传统制剂中,

alt text

每个事件或由(x,y)的指定的对象通过相应的概率p加权( X,Y)。这假定所有对象或事件与它们发生的可能性相同。然而,在某些应用中,某些对象或事件可能比其他对象或事件更为重要,或者某些特定的关联模式在语义上比其他语义更重要。

例如,确定性映射{(1,1),(2,2),(3,3)}可以比确定性映射{(1,3)被视为强(由一些标准), (2,1),(3,2)},尽管这些关系会产生相同的相互信息。这是因为互信息对变量值的任何固有排序都不敏感(Cronbach 1954,Coombs & Dawes 1970,Lockhead 1970),因此对相关变量之间的关系映射形式不敏感。如果需要,前者关系 - 显示所有变量值一致 - 来判断比后来的关系更强,那么就可以使用下面的加权互信息(Guiasu 1977)

alt text

哪些地方关于每个变量值共现概率p(x,y)的权重w(x,y)。这允许某些概率可能比其他概率具有更多或更少的意义,从而允许量化相关的整体或prägnanz因子。在上面的例子中,对于w(1,1),w(2,2)和w(3,3)使用较大的相对权重将具有评估关系{(1,1), 2,2),(3,3)}比关于{(1,3),(2,1),(3,2)}的关系,这在某些模式识别的情况下可能是理想的,等等。

http://en.wikipedia.org/wiki/Mutual_information#Weighted_variants