2017-05-28 125 views
0

这是我的听起来很天真的问题。我检查了谷歌和许多YouTube视频,对于初学者和几乎所有人来说,都将数据权重解释为最明显的事情。我仍然不明白为什么数据会被加权。机器学习,我们为什么需要重量数据

假设我有四个特点:

a b c d 
1 2 1 4 

如果我通过每个值Sigmond功能,我会收到-1> < 1的值了。

我真的不明白为什么数据需要或建议首先加权。如果你能以非常简单的方式向我解释,我会很感激。

+0

的一个顺序描述你的数据称重是什么意思。机器学习管道的哪一部分是你看到这个应用的? – Atreys

+0

我看到在应用到sigmond函数之前的特征值用-1加1 ...实际相乘。但我不明白为什么,为什么整个过程需要重量? – Makaroniiii

+0

如果您的数据值始终是较大的正数,那么使用这些输入的sigmoid(不是sigmond)函数的值是多少? – beaker

回答

0

我认为你不是在谈论称重数据,而是功能。 功能是您的表格中的一列,以及我会理解行的数据。

现在的混乱来自于称重行有时也是合理的,例如,如果您想要更多地惩罚正类的错误分类。

为什么我们需要权衡特征? 我假设你喜欢

prediction = sigmoid(sum_i weight_i * feature_i) > base 

谈论MODLE让我们假设你想预测一个人是否超重根据体重,身高和年龄。

在该R,我们可以生成一个样本数据集作为

height = rnorm(100,1.80,0.1) #normal distributed mean 1.8,variance 0.1 
weight = rnorm(100,70,10) 
age = runif(100,0,100) 
ow = weight/(height**2)>25 #overweight if BMI > 25 
data = data.frame(height,weight,age,bc,ow) 

如果我们现在画出你可以看到,至少在我的数据的样本可以在体重/身高的直线分开的数据。但是,年龄并没有提供任何价值。如果我们在求和/ sigmoid之前对它进行加权,则可以将所有因子放入关系中。

enter image description here

此外,你可以从下面的情节看体重/身高有一个非常不同的领域。因此,他们需要投入的关系,使得在下面的图中的线有权斜率,作为权重值具有的幅度较大

enter image description here