2010-11-30 50 views
8

我的特征向量既有连续的(或广泛的)和二进制组件。如果我简单地使用欧几里德距离,连续分量将产生更大的影响:如何在k-Nearest-Neighbor算法中使用二进制和连续特征?

将对称与非对称表示为0和1,以及一些不太重要的比例范围从0到100,从对称变为非对称具有微小的距离影响相比,改变比例25.

我可以增加更多的权重对称(例如通过使其为0或100),但有没有更好的方式来做到这一点?

回答

9

您可以尝试使用归一化的欧几里得距离,例如在第一部分here的末尾描述。

它只是通过其标准偏差缩放每个特征(连续或离散)。这比另一张海报建议的范围(max-min)缩放更稳健。

1

如果我正确理解您的问题,正火(又名“重新缩放)在数据组中的每个维度或列是处理过的加权尺寸的现有技术,例如,

ev_scaled = (ev_raw - ev_min)/(ev_max - ev_min) 

在R,用于例如,你可以写这个函数:

ev_scaled = function(x) { 
    (x - min(x))/(max(x) - min(x)) 
} 

它是这样工作的:

# generate some data: 
# v1, v2 are two expectation variables in the same dataset 
# but have very different 'scale': 
> v1 = seq(100, 550, 50) 
> v1 
    [1] 100 150 200 250 300 350 400 450 500 550 
> v2 = sort(sample(seq(.1, 20, .1), 10)) 
> v2 
    [1] 0.2 3.5 5.1 5.6 8.0 8.3 9.9 11.3 15.5 19.4 
> mean(v1) 
    [1] 325 
> mean(v2) 
    [1] 8.68 

# now normalize v1 & v2 using the function above: 
> v1_scaled = ev_scaled(v1) 
> v1_scaled 
    [1] 0.000 0.111 0.222 0.333 0.444 0.556 0.667 0.778 0.889 1.000 
> v2_scaled = ev_scaled(v2) 
> v2_scaled 
    [1] 0.000 0.172 0.255 0.281 0.406 0.422 0.505 0.578 0.797 1.000 
> mean(v1_scaled) 
    [1] 0.5 
> mean(v2_scaled) 
    [1] 0.442 
> range(v1_scaled) 
    [1] 0 1 
> range(v2_scaled) 
    [1] 0 1 
相关问题