2017-09-16 194 views
-1

我不明白“较小的max_feature减少随机森林中的过度拟合”的部分吗? 另外,随机森林中的装袋意味着什么?随机森林中的套袋和max_feature

+0

这是更多的数据分析问题,而不是真正的编码问题。 – Tony

回答

0

我会尽我所能向您解释。你似乎是机器学习算法的新手。我相信你知道什么是合适的!所以让我解释为什么随机森林很容易发生这种情况。复制此用户的答案:https://cs.stackexchange.com/users/30903/kyle-hale

曾经有一个叫梅尔的女孩。每天,梅尔和另一个朋友一起演出,每天她都演奏一个阳光明媚,美好的一天。

梅尔玩

乔丹在周一,

百合周二,

咪咪周三,

橄榄周四..然后

上周五梅尔发挥和Brianna一起下雨。这是一场可怕的雷暴!

更多的朋友,更多的朋友!

梅尔打了关上周六,

格雷森上周日,

阿萨在星期一......然后

周二梅尔玩布鲁克并再次下雨了,比以前更差!

现在,梅尔的母亲为梅尔决定了她应该和谁一起玩耍的时间表,当晚,在晚餐时她开始告诉梅尔所有关于她排好的新时间表。 “周三的路易斯,周四的瑞恩,周五的杰米尼,周六的比安卡 - ”

梅尔皱眉。梅尔的妈妈问道:“怎么啦,梅尔,你不喜欢比安卡吗?”梅尔回答说:“哦,当然,她很棒,但是每次我和一个名字以B开头的朋友一起玩,就会下雨!”

Mel的回答有什么问题?

那么,周六可能不会下雨。

好了,我不知道,我的意思是,布赖恩来了,下了雨,布鲁克来了,下雨了......

是啊,我知道,但雨不依赖于你的朋友。

这正是随机森林发生的情况。当添加由“max_feature”变量表示的太多功能时,您将尽力找到它们不存在的模式,并最终过度精确地处理您过度使用的现有数据。当你使用决策树(随机森林)时,你总能找到最合适的选择,因为你把树分成了分支,每个分支都会从字面上考虑每个特征和每一种可能性(如果有意义的话)。

什么是丛林随机森林?你必须首先理解随机森林是如何沿着树走过的(它产生许多树并取某种平均值)并决定哪些要素被认为是重要的,因此这需要你充分理解它的工作原理。你可能应该YouTube它。