2017-02-24 86 views
1

在PST包中,我们使用值C作为用于修剪树的信息增益函数的临界值。该C值,0.05的α的计算方法如下:alpha在信息增益修剪功能的上下文中是什么意思?

C95 <- qchisq(0.95, 1)/2 

是什么意思的是,C值是基于0.05的α?这是否意味着我们需要至少95%确定附加节点与以前的节点相比添加了更多信息,才能通过修剪算法保留它?

回答

1

您的问题涉及在prune函数中使用gain="G2",并且关于此增益函数的阈值C的选择。

用于检查分支是否可以修剪的G2增益函数的两倍实际上是似然比检验统计量,该统计量比较树在修剪分支之前和之后的可能性。在测试分支不添加任何信息的假设下,统计学2 * G2具有卡方分布。因此,当差异不具有统计显着性时,即只要G2值不超过给定显着性水平的阈值,就修剪分支。

alpha是统计测试中常用的重要性级别。它通常是1%或5%。选择α= 0.05意味着由于样本的随机性,有5%的机会错误地不修剪分支。

相关问题