2013-02-15 126 views
1

我有一个高度不平衡的数据,并希望通过上采样少数类来提高准确性(少数类是感兴趣的对象)。R - randomForest中的上采样

我尝试使用“randomForest”函数中的“sampsize”选项 - 但它只允许下采样。我读过某处,可以使用“classwt”选项 - 但我不确定如何使用它。

任何人都可以通过向上采样少数类(使用“randomForest”库或其他类似的库)来提出运行R中随机森林的方法。

谢谢。

+0

将http://stackoverflow.com/questions/8704681/random-forest-with-classes-that-are-very-unbalanced让你更进一步? – xhudik 2013-02-15 10:30:36

+0

@xhudik:我在发布之前已经浏览了该链接。大部分建议都是针对大多数课程,并使用缩小的数据大小。我想保持数据集的大小相同,但因素(平均配置50:50) – amvo 2013-02-15 14:33:36

+0

hmm,因此没有建议从我身边遗憾... – xhudik 2013-02-15 14:59:03

回答

0

最简单的方法是只复制少数类的数据就足够了,但是你丢失了OOB估计。

你想要做的直接做的似乎并没有实现,另见this question