假设我们有人员列表,并希望找到像人X
这样的人。部分未知矢量的最近邻居
特征向量有3个项目[weight, height, age]
,我们列表中有3个人。请注意,我们不知道人的身高C。
A: [70kg, 170cm, 60y]
B: [60kg, 169cm, 50y]
C: [60kg, ?, 50y]
什么是最好的方式找人最接近某甲?
我的猜测
计算一下平均高度值,并用它来代替未知值。
因此,假设我们计算出170cm
是身高的平均值,并且将人C
重新定义为[60kg, ~170cm, 50y]
。
现在我们可以找到最接近A的人,它会是A, C, B
。
问题
现在的问题是,我们把C
与猜测~170cm
比前B
已知169cm
。
它有点感觉不对。我们人类比机器更聪明,并且知道C
几乎不可能是170cm
。所以,最好把169cm
的B放在C
之前。
但是我们该如何计算惩罚?(最好在简单的经验算法)我们应该以某种方式惩罚具有未知值的向量?并通过多少(也许计算每两个人的高度之间的平均差异)?
怎么会是penalisation看起来像在一般情况下,当特征向量的尺寸为N
,它有K
知名项目和U
未知(K + U = N
)?
好主意与比例!谢谢! –