1
在PST包中,我们使用值C
作为用于修剪树的信息增益函数的临界值。该C
值,0.05的α的计算方法如下:alpha在信息增益修剪功能的上下文中是什么意思?
C95 <- qchisq(0.95, 1)/2
是什么意思的是,C
值是基于0.05的α?这是否意味着我们需要至少95%确定附加节点与以前的节点相比添加了更多信息,才能通过修剪算法保留它?
在PST包中,我们使用值C
作为用于修剪树的信息增益函数的临界值。该C
值,0.05的α的计算方法如下:alpha在信息增益修剪功能的上下文中是什么意思?
C95 <- qchisq(0.95, 1)/2
是什么意思的是,C
值是基于0.05的α?这是否意味着我们需要至少95%确定附加节点与以前的节点相比添加了更多信息,才能通过修剪算法保留它?
您的问题涉及在prune
函数中使用gain="G2"
,并且关于此增益函数的阈值C
的选择。
用于检查分支是否可以修剪的G2增益函数的两倍实际上是似然比检验统计量,该统计量比较树在修剪分支之前和之后的可能性。在测试分支不添加任何信息的假设下,统计学2 * G2具有卡方分布。因此,当差异不具有统计显着性时,即只要G2值不超过给定显着性水平的阈值,就修剪分支。
alpha是统计测试中常用的重要性级别。它通常是1%或5%。选择α= 0.05意味着由于样本的随机性,有5%的机会错误地不修剪分支。