2017-01-10 78 views
1

假设数据集包含连续变量和二元变量的独立变量。通常,标签/结果列被转换为一个热矢量,而连续变量可以被标准化。但是什么需要应用于二元变量。选择应用逻辑回归时要归一化哪些变量

 
AGE  RACE GENDER NEURO EMOT 
15.95346 0 0  3  1 
14.57084 1 1  0  0 
15.8193  1 0  0  0 
15.59754 0 1  0  0 

这如何申请回归和神经网络?

回答

1

如果连续值的范围很小,则将其编码为二进制形式,并将该二进制形式的每一位用作预测变量。 例如,二进制数2 = 10。 因此

predictor_bit_0 = 0

predictor_bit_1 = 1

尝试,看看它是否工作。只是为了提醒你,这种方法非常主观,可能会或可能不会为你的数据产生好的结果。如果我找到更好的解决方案,我会告诉你

+0

我不认为这回答了我的问题,因为连续变量在最大值和最小值之间差异很大,需要标准化。我已经清楚地提到了二元变量需要做些什么(变量只有2个结果,比如0或1),我只是消耗它们还是需要执行类似于标准化的操作? –

+0

好的,那么您可能需要对我发布的解决方案进行逆向工程。只需将二元预测变量组合成连续的预测变量。例如,对于race = 1,gender = 0和emot = 1,x = 1:组合形成一个二进制数,其中每个位代表一个预测变量。上例的组合预测值应该是1011(二进制)=十进制的11。您可以按原样使用此预测变量,也可以对其进行标准化。 – Arjun