0

各地不断变量和Logistic回归的几个问题 -与变量Logistic回归不改变

  1. 可以说我有一个连续变量,但只有1个在整个数据集值。我知道我应该理想地消除这个变量,因为它没有预测价值。而不是手动为每个功能执行此操作,Logistic回归会自动使这些变量的系数为0吗?

  2. 如果使用这样的变量(即仅具有一个值)的Logistic回归与L1正则化,将正则迫使系数为0?

  3. 在类似的路线上,如果我有一个分类变量,我有3个级别 - 第一级跨度表示60%的数据集,第二跨度35%,第三级5%),我分裂它为训练和测试,有一个很好的机会,在测试组第三级可能不会结束,带领我们这样一个场景,我们有在测试集训练集一个价值以及其他的变量。我如何处理这种情况?正规化会自动处理这样的事情吗?

ND

回答

0

关于问题3)

如果你想确保两个训练和测试集包含样品从每个分类变量,你可以简单地将每个分组到测试和训练集然后再结合这些。

关于问题1)和2)

用于与方差为零的变量的系数中应该是零,是的。但是,这种系数“自动”将被设置为零还是被排除在回归之外取决于实施。

如果你自己实现回归,您可以发布的代码,我们可以专门讨论。

我建议你找到回归的实现版本,并使用玩具的数据进行测试。然后你会得到你的答案,无论系数是否设置为零(我认为)。